Edited at

[論文メモ] AIの診断を信じられますか?

注意:1人の人間のフィルターを通った内容ですので、詳細に・正確に知りたい方はご自身で元論文に当たってください。

論文のリンク

Can we trust deep learning models diagnosis? The impact of domain shift in chest radiograph classification


概要

ただのDomain shiftに関する内容である。

しかし、かなりの大規模データでの比較で実際に数値にされると興味深い。

この大規模データを用いて評価している研究もあるため、汎化性能は大丈夫なのか心配になる。


背景

胸部X線検査は検診でもよく用いられる検査です。胸部X線検査では様々な疾患を指摘することができ、その中でも肺癌の発見が重要であることは言うまでもありません。肺癌の効果的な治療を行うためにも早期に発見することが重要です。しかし、胸部X線検査で肺癌を見逃しているというニュースをみなさんも目にしたことがあると思います。ではなぜ、胸部X線検査で病変を見逃してしまうのか?それは、胸部X線の画像はパターンが多く、診断が難しいことが原因です。

そこで、AIが胸部X線検査の診断を補助する研究が多く行われています。その精度は医師と同等または高いと言われています。しかし、AIにおける基本的な問題点がここには存在します。それは、AIのモデルを構築した学習データの違いによって性能に違いが出てきてしまうドメインシフトです。

ドメインシフトとは?

同じ問題を解くために集めたはずのデータの分布領域(ドメイン)にズレが生じていることで精度に影響が出てしまうことです。

つまり、自分で集めたデータでは学習とテストが共にうまくいったが、同じ問題用に集めた隣人のデータではうまくいかない現象。本来同じ問題と解くために集めたので、汎化性能がよければうまくいくはずなのに、うまくいかないということです。

大規模データベース3種類を同じモデル・環境で学習させ、それぞれを別のデータベースで評価することでデータの影響を評価しています。


検証内容

各パラメータ

モデル:DenseNet121(ImageNetによるfinetuningモデル)

サイズ:224×224

対象:正面胸部X線画像のみ

データ:学習80%(そのうちの10%が検証)・テスト20%

ハイパーパラメータ:同じ

モデルのために使用した大規模データは3つ。

⒈ ChestX-ray14 (アメリカ国立衛生研究所)[6]→A

⒉ CheXpert (スタンフォード病院)[7]→B

⒊ MIMIC-CXR (マサチューセッツ工科大学)[8]→C

Aで学習させて、A・B・Cで評価

Bで学習させて、A・B・Cで評価

Cで学習させて、A・B・Cで評価

データ以外はほとんど同じ条件

本来、汎化性能がよければそれぞれ結果は良くなるはず・・・

詳しいデータはこちら




結果

これらの結果からそれぞれの学習データと一致するテストデータではうまくいくが、違うデータで学習したものではうまくいかないことがわかる。これほど大規模なデータを用いてもそれぞれのデータに対して過剰に適合していて、汎化性能が正しく評価できていない可能性があることがわかる。これらはドメインシフトによって学習が互いに独立していると考えられる。

すなわち、それぞれのデータで学習したものをそれぞれのテストで評価すると過大な評価になっていることがわかる。

→汎化性能を持っていないかもしれない!!

特に、CheXpertとMIMIC-CXRで学習したモデルをChestX-ray14のテストデータで優位に精度が下がっているのはChestX-ray14 はラベルの信頼性に疑問が出ており、顕著にドメインシフトの影響が出ていると考えられる。

これについては前々から言われてたから仕方ないかな。


展望

近年、GANで少ないデータをData Augmentation(DA)をする研究が医療では多いが、それでは偏りやドメインシフトの影響を大きくさせることがわかっている。すなわち、GANで少ないデータをDAしたとしてもその大本のデータが同じであれば一見性能が上がることは考えられる。すなわち、汎化性能を持っていない可能性がある。そこで著者らは今後、GANをDAに用いるのではなく、ドメイン適応用に開発することで今回のような大規模データ間の違いを修正し、さらに大きなデータベースを開発できる可能性があると考えられる。

→Domain-adptation [12-16]

データベースを3つ合わせればいいのではないかという疑問が浮かぶ。

すでに単純に複数施設のデータを合わせればドメインシフトが解消されるわけではないことが報告されているのも知ってる。ドメインが違うものを合わせても学習が難しくなったりする可能性があるからね。


つまり


皆さんは単純に精度の良いと言われるAIの診断を信じることができるでしょうか?


感想

信じるも信じないのもあなた次第でいいでしょうw

シビアな内容だった。実際、医療系の論文誌では少ないデータであっても数値的に性能が出たらOKと言う傾向がありますからね。さらに近年ではもともと分布を学習するGANを少数データに適応させ、急激に性能が上がり、GANは有効であると言う論文も多数存在します。もしかしたら今回の内容と関わりがあるのかもしれません。そのような研究でよくあるのが、GANで画像を過剰生成させると逆に性能が下がる。ちょうど良い生成w

ある意味ドメインが過剰生成では一致しないのかもしれませんね。

生成との関係ってこんな感じだと思ってた。

少数→微妙

ちょうど良い→性能が向上(Aで学習してAで評価だからね=汎化性能は得ていない)

やりすぎる→ドメインの違う者同士の学習ができなくなる


一言

ご意見ご感想がある人は是非是非!

議論いたしましょう。


参考文献

[6] Xiaosong Wang, Yifan Peng, Le Lu, Zhiyong Lu,

Mohammadhadi Bagheri, and Ronald M. Summers,

“Chestx-ray8: Hospital-scale chest x-ray database and

benchmarks on weakly-supervised classification and localization of common thorax diseases,” CoRR, vol.abs/1705.02315, 2017.

[7] Jeremy Irvin, Pranav Rajpurkar, Michael Ko, Yifan Yu,

Silviana Ciurea-Ilcus, Chris Chute, Henrik Marklund,

Behzad Haghgoo, Robyn Ball, Katie Shpanskaya, et al.,

“Chexpert: A large chest radiograph dataset with uncertainty labels and expert comparison,” arXiv preprintarXiv:1901.07031, 2019.

[8] Alistair EW Johnson, Tom J Pollard, Seth Berkowitz,

Nathaniel R Greenbaum, Matthew P Lungren, Chihying Deng, Roger G Mark, and Steven Horng,

“Mimiccxr: A large publicly available database of labeled chest

radiographs,” arXiv preprint arXiv:1901.07042, 2019.

[12] Cheng Chen, Qi Dou, Hao Chen, and Pheng-Ann Heng,

“Semantic-aware generative adversarial nets for unsupervised domain adaptation in chest x-ray segmentation,” in Proceedings of the International Workshop on

Machine Learning in Medical Imaging. Springer, 2018,pp. 143–151.

[13] Mehran Javanmardi and Tolga Tasdizen,

“Domain adaptation for biomedical image segmentation using adversarial training,” in Proceedings of the 15th International Symposium on Biomedical Imaging. IEEE, 2018,

pp. 554–558.

[14] Yaroslav Ganin, Evgeniya Ustinova, Hana Ajakan, Pascal Germain, Hugo Larochelle, Franc¸ois Laviolette,

Mario Marchand, and Victor Lempitsky,

“Domainadversarial training of neural networks,” The Journal of

Machine Learning Research, vol. 17, no. 1, pp. 2096–2030, Apr 2016.

[15] Amir Gholami, Shashank Subramanian, Varun Shenoy,

Naveen Himthani, Xiangyu Yue, Sicheng Zhao, Peter

Jin, George Biros, and Kurt Keutzer,

“A novel domain adaptation framework for medical image segmentation,” in Proceedings of the International Medical

Image Computing and Computer Assisted Intervention

Brainlesion Workshop. Springer, 2018, pp. 289–298.

[16] Faisal Mahmood, Richard Chen, and Nicholas J. Durr,

“Unsupervised reverse domain adaptation for synthetic

medical images via adversarial training,” IEEE Transactions on Medical Imaging, vol. 37, pp. 10, Jun 2018.