0.はじめに
KaggleのSIIM-ISIC Melanoma Classificationという医療画像コンペで銅メダル(191 place, top 6%)を獲得し、Kaggle Expertになったのでその参加記を投稿します。
メラノーマコンペの概要、新しく学んだ理論、試した手法、上位solutionが含まれます。
特に手法に関しては参考になる部分はないかと思われますので、読み飛ばしていただいて構いません。
この記事ではある程度機械学習, Kaggleについての知識を前提としていますが、ニュアンスだけでも読めますので軽く読み流して頂けると幸いです。
0-1.ざっくり結論
・非常にシンプルなタスクで、時間がない中でも取り組みやすかった
・データのかさ増しと、upsamplingが重要なコンペであった(が、upsamplingに関してはできなかった)
・Data Augmentationが重要なコンペであった(が、それに気づけなかった)
・LeaderBoardの数値はサンプル数(陽性例)が少ない為にそれだけを信用すると危険だった
・最終的なモデルはEfficientNetのパラメータ数が異なるもの2つ(b3,b4)の平均
・入賞モデルは自力1/3、あとの2/3は公開notebookから持ってきたもの
#1.コンペについて
##1-1.コンペ概要
SIIM-ISIC Melanoma Classificationとは、皮膚の母斑(ほくろ)様の画像から、メラノーマ(悪性黒色腫)を検出するというコンペです。(資料3)
##1-2.評価指標
評価はROC曲線下面積の大小によって行われます。
ROC曲線は、連続確信度法における真陽性率(TPF)対偽陽性率(FPF)から求められる曲線のことで、完全に正しい診断ができた時曲線下面積は1となり、完全にランダムな診断を行った場合、0.5になります。
代表的なライブラリとしてはscikit-learnのroc_auc_scoreが挙げられます。
今回のコンペでは、どのくらいの確信度で陰性・陽性なのかを予測することになります。
この時、予測は0~1の間で提出する必要がありますが、数字の大小だけがスコアに影響するため、特にスケーリングを行う必要はありません。
・test
提出の際に予測するデータが含まれるデータセット。trainに対して正解ラベルが与えられないという点で異なります(当たり前ですが)。(10982枚)
・train.csv
training画像のidに対応する、以下の情報が含まれます。
・患者id(patient_id)
・性別(sex)
・年齢(age_approx)
・部位(antom_site_gen...)
・診断所見(diagnosis)
・良性/悪性(benign_malignant)
・ラベル(target)(良性なら0,悪性なら1)
・画像サイズ(width,height)
・test.csv
train.csvから、診断・良性/悪性・targetの3つが抜かれたcsvファイルです。
つまり、性別・年齢・撮影部位の情報は予測に使って良いことになります。
・jpeg
train/test画像それぞれのjpeg形式が含まれます。(DICOMをjpegに変換する手間が省けます)
・tfrecords
tensorflowに対応したデータセットをひとまとめにしたもの。train/test画像をtfrecords形式に変換したものが含まれます。
#2.EDA
コードを公開しました。
ここで書かれていることと殆ど同じですが、コードに興味がある方は見てみてください。
trainingデータ:
総データ数 : 33126 [枚]
総患者数: 2056
陽性患者数: 428
陰性対陽性:
陰性データ数 : 32542
陽性データ数 : 584
陰性率 : 98.237 %
陽性率 : 1.763 %
陽性患者でも、陽性である画像があったり、陰性である画像があったりするが、陽性画像が複数枚存在する事がある。
男女比:
male : 51.56 %
female : 48.24 %
nan : 0.1962 %
男女比(陽性) :
male : 62.33 %
female : 37.67 %
nan : 0.0 %
図2-1 : 年齢層(全体)
図2-2 : 年齢層(陽性)
図2-3 : 年齢層(陽性)(割合)
図2-4 : 撮影部位(全体)
図2-5 : 撮影部位(陽性)
胴体・上肢・下肢・頭頸部が多く、どこに出現しやすいとかは特別無さそう。(陽性者と全体でのグラフの形に乖離が無いことから)
画像例:
画像例を示します。
陽性(malignant)と診断された写真は、以下のいずれかの特徴が存在します(図2-7)。
・非対称である
・輪郭がギザギザしている
・色にムラがある
・直径が6mm以上
※メラノーマの特徴については、理論3-1で述べます。
また、画像を見ていて気になるのが体毛です(図2-8)。学習する際には、preprocessingとして体毛の除去を行えると、より効率が良さそうです。
図2-6 : 陰性画像例
図2-7 : 陽性画像例
図2-8 : 体毛が気になる例(陰性)
#3.理論
3-1では臨床的な理論について述べます。
3-2以降では機械学習の手法について述べます。
##3-1.悪性黒色腫(メラノーマ)
メラノーマはメラノサイト(ほくろのもととなる細胞)が悪性化することで発生します。
リンパ行性または血行性に肺や骨に転移しやすいため(どこにでも転移しますが)、治療を行う必要があります。
転移がない場合(~Ⅱ期)には基本的に手術療法によって切除しますが、センチネルリンパ節に転移が見られる(Ⅲ期)、遠隔転移が見られる(Ⅳ期)場合には化学療法・放射線治療を併用した集学的治療が主体となります。
診断時には、肉眼による確認、ダーモスコピー(専用の拡大鏡)、また生検によって行われます。
メラノーマの母斑状病変に見られる特徴としては、
・非対称である
・輪郭がギザギザしている
・色にムラがある
・直径が6mm以上
などがあります。
##3-2.不均衡なデータの扱い
今回のコンペでは陽性例が全体の1.8%と少ないため、データの偏りには十分注意する必要がありました。
具体的には、Stratified KFoldを用いることによって陽性例の分布を均一にしたり、Group KFoldを用いることによって同じ患者の写真が一つのfoldに集中しないように分散させたりする手法がありましたが、
Discussionに
・同じ患者の写真の枚数の均一化
・陽性例の均一化
・患者ごとの写真枚数の違いを考慮した均一化
の、3つの不均衡について考慮したTriple Stratified KFoldが投稿されたことにより、これを用いて学習を行う人が多かったようです。(資料14)
更に、upsampling(資料1.Kaggleで勝つ データ分析の技術では"oversampling"と紹介されています)という陽性例を単純に増やしてデータの均衡を保つ手法も存在します。コンペ2位の方はupsamplingを行っていたことが確認できており、これも有効な手段であったように感じます。特に、今回のコンペは評価指標がROC曲線下面積であり、これは"数の大小関係"のみが関係するため、データの釣り合いの変化による予測確率の変化を考慮する必要が無く、やってみる価値のあるものでした。
##3-3.CosineAnnealingLR
学習率を管理するSchedulerで用いられる手法です。ずっと同じ学習率で学習を行うと、過学習や局所解にとらわれる可能性があります。そこで、学習率を少しづつ下げていくことによってOptimizerによる最適化をスムーズに行うことができます。
CosineAnnealingLRでは図3-3-1のような学習率の遷移を実現します。
ちょっと調べてみても学術的な文献を見つけることが出来なかったので、理論というより紹介です。
以前Twitterにてかまろさん(@mlaass1)が投げかけたモデリングの経験則に関するツイートについて、多くの方が反応しましたが、その中でもとりわけスケジューラにCosineAnnealingを用いている人が多いことが分かります。(資料13)
今コンペにおいても、チーム1位のメンバー、また単独2位の方もCosineAnnealingを使用している事が確認できています。(資料10)(資料11)
図3-3-1 : Cosine Annealing LR (epoch=100,init_lr=1e-3)
##3-4.TTA
TTAとはtest time augmentationの略で、予測して提出するデータにもData Augmentationを適用する手法を指します。TTAでは毎回ランダムな画像データが生成されるため、複数回evaluationを行い、その平均値を取ります。
一度TTAを行わない状態で予測を行い提出したところ、TTAを行った場合よりも低いスコアとなりました。Augmentationはデータにノイズを付加するようなものなのに、そちらの方が精度が出たので驚きました。
今コンペ1位、2位の方もTTAによる予測を行っていました。
#4.検証
##4-1.ベースライン
まずは前処理なし、Augmentation無しのまっさらの状態でEnet b0のベースラインを作成しました。ベースラインの作成にあたっては資料4のカーネルを参考にさせていただきました。
name : melanoma_tachyon_baseline
about : ベースライン
model : Enet (b0)
img_size : 256x256
batch : 64
epoch : 5
criterion : BCEWithLogitsLoss
optimizer : Adam
init_lr : 1e-3
scheduler: CosineAnnealingLR
data : all
preprocess : None
train_test_split : single fold(StratifiedKFold, k=4)
data augmentation : transpose,flip (no TTA)
Public LB : 0.8823 (2300 place)
完全にランダムな場合(例えば、すべての値を0にした場合)、0.5となるため、学習がちゃんと進んでいる事が分かります。
※コンペ終了後知ったのですが、ベースラインはできるだけシンプルな方が良く、scheduler,data augmentationなどはこれには含めないほうが良さそうです…
##4-2.過去のメラノーマコンペ
ISIC主催のメラノーマコンペは、2017,18,19年にも行われました。
2019年度の1位solutionの要約がDiscussionに投稿されており、(資料5)これを見て面白いなと思ったのが、パラメータの多いモデルほど、画像サイズを大きくして学習を行っていたことです。(図4-2-1)
ENというのがEfficientNetの略で、B0からB6になるにつれて、モデルのパラメータ数が増えてより複雑な表現が可能になります。ここで、その右横の数字が使用した画像のサイズですが、使うモデルのサイズが大きくなるにつれて、画像サイズも大きくしているのが読み取れます。
つまり、このsolutionでは、モデルのパラメータ数に合わせて画像サイズを変更して、過学習やパラメータ数による表現力のバランスを取っていると考えられます。
図4-2-1 : ISIC 2019 Challenge 1st place solution (資料5より引用)
一通り当コンペのNotebookやDiscussionを見たところ、画像サイズの違うデータでの学習、複数モデルのアンサンブルは”必須”レベルであることが分かったので、これは僕にとって非常に価値のある気づきでした。
その他、このsolutionから得られた情報は、
・前処理として"Shades of Gray color constancy"を行った※
・AugmentationとしてCutOutを用いた
・meta data(性別・年齢などのテーブルデータ)も用いた
というものです。
なお、ISIC 2019では、メラノーマかどうかを判別するだけでなく、メラノーマの他に母斑、線維腫、扁平上皮癌など、全部で10個の評価指標を算出する必要がありました。
※Shades of Gray color constancyについては、資料8のnotebookが詳しいです。翻訳ツールを用いても単語が難しく正確には理解できていないのですが、「色補正技術を用いて画像から抽出された色特徴量に対する"acquisition setup(直訳で取得セットアップ)"の影響を低減することで、精度を向上させる」という旨でした。これは、2018年のメラノーマコンペにおいて初めて使用されたそうです。
##4-3.外部データの使用
4-2で述べたとおり、2017~2019にもメラノーマのコンペは行われており、その時のデータを今回のコンペで使うことは認められていました。
EDAで見たように、陽性サンプル数が1.8%,580例とデータの偏りがあるこのコンペでは、外部データ(external data)を使用すると、精度が向上しそうです。
実際に、ISIC2019の1位の方は、それより以前の2017,2018年のデータでかさ増しして学習を行っていました。(但し、上位に外部データを用いなかったチームも多くいたことから、外部データの扱いには注意しないと、寧ろ精度の低下を招く原因となることが推察できます)(資料6)
順番が前後しますが、まずは今回提供されたデータのみである程度精度の出るモデルを作成してから、外部データを用いて精度が向上するかどうか検証を行いました。
既に2019年のメラノーマコンペのデータがマージされたDataset(資料9)が存在したため、これをそのまま使いました。(更に、データの不均衡を処理したfold (stratify group kfold)までcsvデータについていたため、データ分割処理の手間が省けました。)
このデータを用いることによって、trainingに使用できるデータは33126枚から57224枚に増え、ROCスコアは0.02~0.03程度上昇しました※。これは相当大きな改善なので、僕の場合はデータのかさ増しは非常に有効だったということになります。
※当時は"データ数が増えた"ことによって精度が向上していたと考えていましたが、コンペが終わってから考えてみると、どちらかというと"陽性の割合が増えた"(2019年のコンペでは2020年に比べてtrain dataに7倍程度の陽性例が含まれていました)ことによって精度が向上していたように感じます。(=upsampling)
##4-4.Preprocess
データの前処理についても検討しました。
前処理とData Augmentationの違いは、Augmentationはランダムな変化を加えて画像に多様性をもたせる為のもの(=マンネリ化の防止)でしたが、前処理はすべての画像について一律に同じ処理を加えることによって、学習のしやすい画像に加工するところにあります。
ここで、EDAの時に確認した、学習時のノイズとなり得る体毛の扱い(図2-3)を考える必要がありました。選択肢として2つ考えられます。
①体毛を除去する前処理を行う
②Augmentationとして、体毛を付加することで、体毛にも十分に対応したモデルを作成する。
ぱっと見ではどちらが優れているのか分かりませんので、検証を行いました。
①の処理は、資料7のnotebookを参考に実装を行いました。(但し、notebook上では処理が重いため一回全部書きだしてDatasetを作る作業が必要です)
②の処理は、baseline作成時に参考にした資料4にそのまま実装されていましたので、こちらを用いました。
結果:
BaseLine : CV0.9115 ,LB0.8728
①体毛除去処理 : CV0.9054 ,LB0.8720
②体毛付加処理 : CV0.9133 ,LB0.8844
よって、除去処理よりも付加処理の方が精度が良い事が分かりました。baselineと比較しても、精度が向上していることが分かります。CV(Cross Validationによる訓練データ間での評価)とLB(testデータの一部。ここではPublic LB)で乖離があるのは、LBの方はTTAを行っているためです。
また、もう一つの前処理としてShades of Gray color constancyも行いました(4-2に書いた色補正の処理です)。
これによって精度が向上したかというと実際そうでもありませんでしたが、多様性を良くする目的で最終的なモデルにこの前処理を行ったものは組み込まれています。(精度が向上したのかよくわからないのにとりあえず入れる、は整合性が取れなくなるので検証を行う上で良くないことだと気づきました。反省点です。)
##4-5.Data Augmentation
メラノーマコンペは前回のPANDAコンペとは打って変わって、augmentationの工夫によって精度が向上しやすいものでした。
このコンペで僕が銅メダル止まりだった原因はここにあったと思います。それは後ほど6.考察で述べることにして、とりあえずやったことと精度が向上したものを列挙します。
・Flip
・Rotate
・RandomResizedCrop
・microscope (但し、cutoutとトレードオフ)
・cutout (但し、microscopeとトレードオフ)
・Jitter (brightness,contrast,saturation)
・AdvancedHairAugmentation
Microscopeは図4-5-1のように顕微鏡を覗いたように画像の辺縁のデータを切り捨てる処理です。これもbaseline作成時に参考にした資料4にそのまま実装されていました。
図4-5-1 : Microscope
CutoutとMicroscopeはどちらか片方だけを使わないと、両方使った場合には精度が低下しました。比較した時にCutoutの精度が良かったので、最終的にはCutoutのみを用いました。Cutoutの大きさは昨年のメラノーマコンペ優勝チームのものをそのまま使用しました。
※CutoutについてはPANDA記事に書いています。
AdvancedHairAugmentationは4-4.での"体毛付加処理"です。コンペ3位の方はこのAugmentationを採用していました。(資料12)
##4-6.MinMax Ensembling
まずアンサンブルについて、Discussionでは"複数の画像サイズ"と、"複数の異なるモデル"で予測を行い、結果をアンサンブルするのが良いとされていました。図4-2-1に示したとおり、昨年の優勝モデルも予測結果をアンサンブルしたものです。
そのアンサンブル手法の1つがMinMax Ensemblingです。この方法ではまず1つのベースとなる予測結果を選択し、全ての予測結果が設定した閾値を超えている/下回っているならば、予測結果の中の最も大きい/小さい値を選択し、そうでないならばベースの値を採用します。(資料15)
図4-6-1 : MinMax Ensembling
僕もfinal submissionの1つにこの手法を採用しましたが、Public LBにoverfitしていたようで、この予測はかなりPrivate LBでは悪く出ました。
メダルが取れたモデルは、単純に6つの予測結果の平均を採用したものでした。
##4-7.最終モデルとFinal Submission
最終モデルとしては以下のものを採用しました。
まだまだ改善の余地はありましたが、時間的にここまで…という感じです。(foldも3つめまでしか回せていません…)
name : melanoma_tachyon_v10
about : final submission model 1.
model : Enet (b3) batchnorm freeze
img_size : 300x300
batch : 32
epoch : 10
criterion : BCEWithLogitsLoss
optimizer : RAdam
init_lr : 2e-5
scheduler: CosineAnnealingLR
data : melanoma-merged-external-data-512x512-jpeg-shades
preprocess : Shades
train_test_split : 5 of 3 folds(Triple StratifiedKFold, k=5)
data augmentation : hairaug,flip,crop,jitter,cutout
tta : 3 times(same condition of train Aug)
name : melanoma_tachyon_v11
about : final submission model 2.
model : Enet (b4) batchnorm freeze
img_size : 384x384
batch : 16
epoch : 10
criterion : BCEWithLogitsLoss
optimizer : RAdam
init_lr : 2e-5
scheduler: CosineAnnealingLR
data : melanoma-merged-external-data-512x512-jpeg-shades
preprocess : Shades
train_test_split : 5 of 3 folds(Triple StratifiedKFold, k=5)
data augmentation : hairaug,flip,crop,jitter,cutout
tta : 3 times(same condition of train Aug)
①この2つのモデルの平均を取ったものを1つめのsubmissionとしました。
Public LB : 0.9507, Private LB : 0.9308
また、notebook上に公開されていたモデルの出力結果を用いてアンサンブルを行ったものもfinal submissionに使用しました。
②notebook上で公開されていた4つの出力結果と、上記2つのMinMax Ensemble
Public LB : 0.9676, Private LB : 0.9269
③notebook上で公開されていた4つの出力結果と、上記2つの平均をとったもの(Average Ensemble)
Public LB : 0.9651, Private LB : 0.9398
#5.結果
残念ながら自分で作成したモデルだけではメダル圏内に届きませんでした。(Public LBの時点で大体分かっていましたが…)
結果的に、1/3だけ自分のモデル、あとの2/3は他の方の出力を使って平均を取ったものが銅メダル圏内に入りました。
大学のテスト勉強と並行しながら息抜きにkaggleをやっていたので、こんなものかな…という感じです。
#6.考察
1st solution,2nd solutionを元に自分の結果と比較して考察していきます。
1st solution
2nd solution
##6-1.1st solution
1st solutionでは、モデルとしてはEfficientNet B3-B7, se_resnext101, resnest101を、画像サイズは384~896を、meta dataは使ったり使わなかったりしたそうです。
meta dataについて、image sizeを用いているという点で僕のモデルとは異なりました。何か有用な情報になりうるのでしょうか…?(例えば、陽性でも画素値が低い画像はあまり確信度がもてない=連続確信度法においては低めの値になる、などは考えられそうです)
また、Augmentationが非常に複雑なのが驚きました。
Augmentationのコード(全てalbumentationsのみで完結しています)を手元で実行してみたところ、図6-1のようになりました。とても元画像の特徴を保持できているとは思えません…
図6-1-1 : 1st solution Augmentations result
今まで、Augmentationは前提として"元の画像の持っている特徴を崩してはいけない"と思っていたので、ここまで崩しても良いとは…と驚きました。手元でこのコードで学習をさせてみたところ、恐らくここが今回上手くいかなかった原因だなと思いました。それは、lossの減り方、aucスコアの増え方が緩やかになったからです。初めてMNISTの学習を回したときのような、理想的なカーブが見られるようになりました。
コンペ中では、僕の最終モデルに至っては最初の1世代でauc=0.92程度まで一気に回り切り、そこから4世代くらいかけて0.94程度まで上がったらあとは飽和、lossは増加してしまうという状態になったので、結局学習率を小さくしてみたり、epoch数を減らすくらいしか対処のしようがありませんでした。しかしどうやらAugmentationの量を増やすことで学習を複雑にするのが良い手だったようです。
但し、この大量のAugmentationを行うにはnotebookのcpuは貧弱すぎて、学習時間が倍程度に増幅してしまいます。本気でここまでやるためにはnotebook以上の計算リソースが必要です。(不可能ではないですが、検証時間を考えると現実的ではなさそうです)
更に、異なるモデル間での結果をアンサンブルする際には、予測結果の大小関係のみを反映できるようにpandasのrank()関数を用いた上でアンサンブルしていました。僕としてもこのような処理が必要なことはなんとなく分かっては居たのですが、どうすればいいか分からず結局できなかったので、これは非常に勉強になりました。
1st team メンバーのqishen ha氏がソースコードのnotebookを公開されており、これも参考になりました。(資料16)
##6-2.2nd solution
2位に入賞されたIan Pan氏は現在研修医の方で、業務の合間を縫ってコンペに参加されたそうです。尊敬の念を抱くとともに、テスト勉強程度で音を上げていては話にならないと思うなどしました…。
モデルは最初にEfficientNet, SE-ResNeXt, ResNeStなどを試し、結果的にEfficientNetが一番優れていたのでEfficientNetだけを使ったそうです。
また、meta dataは最終的には使用しなかったようです。理由としては、training dataの分布にoverfitすることを恐れたからで、結果的にこの考え方は正しく、Private LBのスコア向上に寄与しました。確かに画像データはAugmentationを行うことで過学習を防げますが、テーブルデータに対するAugmentationは基本的には行わないことが多いと認識しているので、確かにそうなりそうと感じました。
データのupsampling手法も工夫されていました。2019年のデータを併用する際に、2019年のデータでは陽性の割合が多いことから、2020年の陽性データのみをupsamplingし、2つのデータセットの陽性率が同じになるようにされたそうです。
また、Pseudo Labelingという、テストデータに対しても学習を行う、「使えるデータは全て使う」手法も取り入れていました。テストデータには正解ラベルが与えられていませんが、トレーニングデータで学習したモデルでテストデータの予測を行い、その予測値を用いて(それを正解ラベルとして)テストデータに対しても学習を行います(半教師あり学習の1つです)。
最終的にはEfficientNet(b6,b7)を用いた3つのモデルのアンサンブルが最もスコアが出たそうです。
このsolutionを読んで、特に2019年データとの結合の際のupsamplingの面において、データの扱いが非常に慎重で、管理が上手だなと感じました。
今後の課題が明確になったため、この2つのsolutionは特に勉強になりました。
#7.終わりに
今回も非常に学びの多いコンペでした。また、タスク自体が簡単で、取り組みやすかったです。
過去コンペの復習をし、理論的な部分を詰めながら、次はソロ銀を目指していきたいなと思います。
#8.参考文献
1.門脇大輔 阪田隆司 保坂桂佑 平松雄司 Kaggleで勝つ データ分析の技術 技術評論社 2019
2.小川祐太郎 つくりながら学ぶ!Pytorchによる発展ディープラーニング マイナビ出版 2019
3. https://www.kaggle.com/c/siim-isic-melanoma-classification/overview
4. https://www.kaggle.com/nroman/melanoma-pytorch-starter-efficientnet
5. https://www.kaggle.com/c/siim-isic-melanoma-classification/discussion/154683
6. https://challenge2019.isic-archive.com/leaderboard.html
7. https://www.kaggle.com/vatsalparsaniya/melanoma-hair-remove
8. https://www.kaggle.com/apacheco/shades-of-gray-color-constancy
9. https://www.kaggle.com/shonenkov/merge-external-data
10 https://www.kaggle.com/c/siim-isic-melanoma-classification/discussion/175412 (1st place solution)
11. https://www.kaggle.com/c/siim-isic-melanoma-classification/discussion/175324 (2nd place solution)
12. https://www.kaggle.com/c/siim-isic-melanoma-classification/discussion/175633 (3rd place solution)
13. https://togetter.com/li/1570085
14. https://www.kaggle.com/cdeotte/triple-stratified-kfold-with-tfrecords
15. https://www.kaggle.com/solomonk/minmax-ensemble-0-9526-lb