More than 5 years have passed since last update.

機械学習の再現性のためのチェックリスト

Last updated at 2020-01-10Posted at 2019-10-04

概要

深層学習の論文を読んで再現実験を行うときに、あっさりうまくいくこともあるが、全然再現できないことのも多い。ベースラインからほとんど変わらないとか、そもそもこの論文、ベースライン手法のチューニングしてないじゃんとか、いろいろ問題が出てくる。

機械学習分野の論文は再現性が低い、という問題を少しでも解決するために、NeurIPSが論文投稿者に求めているチェックリストを読んでみた。

Andrew Ng先生のdeeplearning.aiがやっているニュースレターであるThe Batchで、紹介されていた。

提示しているアルゴリズムについて、以下の事項を満たしていること。

理論的な主張については、以下の事項を満たしていること。

経験的な結果（つまり、実験結果）を示す図と表については、以下の事項を満たしていること。

Facebook AIのブログ記事で、このチェックリストに関する言及がなされていました。その記事の中で、一部とはいえ再現性をサポートするためのツールやサービスが紹介されていましたので、簡単に列挙しておきます。

PyTorch Hub: Colabの組み込みサポートとPapers With Codeとの統合が組み込まれている。これにより結果をより迅速かつ簡単に評価できるようになっている。
PyTorch Lightning: 研究ワークフローの多くを自動化し、最新のベストプラクティスを保証してくれる。
sotabench: GitHubの実際のコードと、研究を再現するための透過的で継続的な統合のようなインフラストラクチャを使用して、論文の自動比較を提供している。

再現性の保証のためには個々の研究者の努力だけではなく、このあたりのツールやサービスの整備や、コミュニティの成熟が必要であるという書き方がなされていて、なるほどなあと思いました。

再現実験マンにとっては、以下が重要かなと思った。

外部ライブラリを含む、すべての依存関係を特定している、ダウンロード可能なソースコードへのリンクを提示する。
- ソースコードは公開しないより公開するほうがはるかにマシなわけですが、「githubにソースコード置いとくよ（ただしMNISTの実験のぶんだけね）」、みたいなものも多いので、すべての実験に関する完全なソースコードの共有をしてほしいもんです。
中心的な傾向（例：平均）と変動（例：標準偏差）を伴う結果の説明を行う。
- 精度評価の表に「±」が入っていないと悲しくなる。
- 精度の分布を示してほしい。深層学習はどうしても訓練の過程にランダム性が入るので、極端に悪かった結果は、平均や標準偏差の計算から除いてもいいと思うが、outperformな結果が2回に１回くらいの割合で得られるのか、10回に１回しか得られないのか、で再現する人にとっての物理的・心理的負担がぜんぜん違う。