2012年、画像のコンペティションILSVRCに衝撃が走った。去年までのエラー率の最高は26.2%だったのに対して、トロント大学のジェフリー・ヒントン教授のグループが史上最高の成績15.3%を叩き出したのだ。これは、人間の判断率5.0%に大きく近づく大躍進だった。
このサイトは、論文を分かりやすく解説することを念頭に書いています。
もしわかりづらい部分があれば、随時コメント欄から質問よろしくお願いします。
まず、この画像コンペティション ILSVRCとは?について説明する。このコンペティションは1000種類の画像が全部で1400万枚という膨大な画像データセットに対して、3種類のタスクを行う。
- ある1枚の画像がどのクラスに分類されるかというClassificationと呼ばれるタスク
- ある1枚の画像がどこにあるかという場所の指定とどのクラスに分類されるかを同時に行う Localizationと呼ばれるタスク
- ある1枚の画像に対して、複数の物体があり、その物体全てに対して、どこにあるかを特定するObject Detectionと呼ばれるタスク の3種類が存在する。 実際にこのモデルを作成する際には、与えられたデータセットを学習用とテスト用、学習のテスト 用の3つに分け、テスト用のデータセットに対して、1000種類の画像を分類し得点を競うのだ。
このAlexNetは当時あまり使われていなかった畳み込みニューラルネットワーク(Convolutional Neural Network)を活用し、問題とされていた過学習(Overfitting)を2つの手法を用いて、ある程度解決し、大きく性能を向上させた。