Edited at

翻訳:AIの冬は確実に近付いている (Filip Piekniewski)

この記事は、Filip Piekniewski氏のブログ記事 "AI Winter Is Well On Its Way" の翻訳です。

追記:Filip Piekniewski氏による本記事への補足も合わせてご覧ください。

翻訳:AIの冬はますます近付いている (Filip Piekniewski)



AI Winter Is Well On Its Way

ここ数年、ディープラーニングはいわゆるAI革命の最前線に位置付けられてきた。そして、多くの人が信じてきたところによると、ディープラーニングは我々をシンギュラリティ (汎用人工知能) という驚異の世界へと導いてくれる銀の弾丸なのだという。2014年、2015年そして2016年には多くの投資が行なわれ、AlphaGo のように新しい境界線が押し広げられていった。テスラといった企業は、CEOの口を通して完全な自動運転車はすぐ近くに迫っていると宣言し、顧客へそのオプションの販売を開始するまでに至った [将来のソフトウェアアップデートにより有効化される]。

我々は今や2018年の中頃にいて、ものごとは変化した。未だ表面化しておらず、未だにNIPSカンファレンスは過剰販売され、未だに企業PRはプレスリリースでAIを全面的に押し出しており、未だにイーロン・マスクは自動運転車の約束を継続しており、GoogleのCEOはAIは電気よりも大きいというアンドリュー・ングのスローガンを繰り返し続けている。けれどもこの物語は裂け始めている。そして、過去の投稿で私が予測した通り、その裂け目が最も明らかに見える場所は自動運転車である - 現実世界におけるテクノロジーの実アプリケーションである。


ディープラーニングの上に積もった埃

ImageNetが効率的に問題を解決した時 (コンピュータビジョンの問題が解決されたことを意味するのではないことに注意)、この分野の著名研究者たちの多く (普段は寡黙なジェフ・ヒントンを含めて) は積極的にメディアのインタビューを受け、ソーシャルメディアに意見を投稿した (たとえば、数名の名前を挙げるなら、ヤン・ルカン、アンドリュー・ング、フェイフェイ・リーなど) 一般的な論調は、我々は巨大な革命の目前にいて、これからものごとは加速していく一方だというものであった。数年が過ぎたが、彼らのtwitterフィードはそれほど活発にはならかった。下記のアンドリュー・ングのツイートにより示される通りだ:

2013 - 1日あたり0.413ツイート

2014 - 1日あたり0.605ツイート

2015 - 1日あたり0.320ツイート

2016 - 1日あたり0.802ツイート

2017 - 1日あたり0.668ツイート

2018 - 1日あたり0.263ツイート(5月24日まで)

おそらくこれは、アンドリューのでたらめな主張が、現在ではコミュニティによって厳密に調査されるようになったからなのだろう。以下のツイートに示されている通りだ:

センチメントは眼に見えて低下しており、究極のアルゴリズムとしてディープラーニングを賞賛するツイートはかなり少なくなり、論文はあまり「革命的」ではなく、よりいっそう「進化的」になっている。DeepMind社は、AlphaGo Zero以降、息を呑むようなものを何も見せていない。[そして実際のところそれは決してエキサイティングではない。あまりに莫大な計算量が必要であり、またゲームにしか適用できないのだから - モラベックのパラドックスを参照] 。OpenAIはそれよりも目立たず、彼らが最後にメディアから爆発的に注目されたのは Dota2のプレイエージェントであった [彼らは、AlphaGoと同規模の話題作りを狙っていたのではないかと思う。しかし、かなりの速さで注目は失なわれた] 。実際のところ、Googleでさえ実際にDeepMind と何をすればよいか分かっていないという報道も出始めている。彼らの成果は、見たところ当初予想されていたほどには実用的ではないようだから… 著名研究者について言えば、大抵の場合は、将来の助成金確保のためカナダやフランスの政府関係者との会合ツアーを行なっていた。ヤン・ルカンは、(いくらか象徴的に) Facebookの研究所の所長からチーフAI科学者へと降格した。資金を持つ巨大企業から政府支援の研究機関への段階的な移行は、これら企業 (Google と Facebookを考えている) 内部での人工知能研究への関心が実際には徐々に低下しつつあることを示唆している。これらすべては初期症状であり、大声では語られていない。単なるボディランゲージである。


ディープラーニングはスケールしない

ディープラーニングについて何度も繰り返された主要なスローガンとして、ディープラーニングはほぼ無理なくスケールできるという主張が挙げられる。2012年にはAlexNetが提案され、そのパラメータ数は6000万程度であった。おそらく今では、少なくとも1000倍以上のパラメータを持つモデルもあるのではないか? おそらくその通りだろう。けれども、疑問はこれだ - それらは1000倍の能力を持つのか? あるいは100倍でも有効なのだろうか? OpenAIの研究が役に立つ。

コンピュータビジョンのアプリケーションに関して、VGGとResnets は適用された計算リソースについて1桁のオーダーで飽和していることが分かる (パラメータ数に関して言えば、実際には減少した) XceptionはGoogleのinceptionアーキテクチャの変種であり、ImageNetの初期版よりごくわずかにパフォーマンスが優れているにすぎない。まず間違いなく、実際にはその他すべてよりわずかに優れているだけだろう。本質的には、AlexNetがImageNetを打開したからである。そのため、AlexNetと比較すれば100倍もの計算力が費されているものの、コンピュータビジョン 、- より正確に言えば画像分類という観点からは、アーキテクチャは飽和している。ニューラル機械翻訳は、あらゆる大手ウェブ検索企業が大きな努力を払っており、利用可能な計算力のすべてが使われていることはまったく驚くべきことではない (それでも、Google翻訳は未だに酷いものである。間違いなく改善は見られるが) 。グラフ上の最新の3点は、興味深いことに強化学習関連のプロジェクトを示している。DeepMindとOpenAIによってゲームに適用されたものだ。特に、AlphaGo Zero、および多少汎用的なAlphaZeroは、馬鹿げた量の計算力を要するが、実世界のアプリケーションには適用不可能である。なぜならば、これらデータに飢えたモデルの要求を満たすために、莫大な量のデータをシミュレートし生成する必要があるからだ。オーケイ、今や我々はAlexNetを何日も掛からず数分で訓練できる。けれども、何日も掛けて訓練した1000倍大きなAlexNetは、質的に優れた結果を得られるのだろうか? 見たところそうではないようだ…

このグラフは、ディープラーニングがどれほどスケールするか表すことを意図しているものの、実際のところはその正反対を示しているように見える。単にAlexNetをスケールアップすることで、優れた結果を得ることはできない - 特定のアーキテクチャをいじくり回す必要があり、また実質的には何10倍ものデータサンプルを増やすことなしに追加の計算力を有効活用することはできない。そんな膨大なデータは、実際上シミュレートされたゲーム環境以外では手に入らない。


自動運転車のクラッシュ

ディープラーニングの名声に対する最大の打撃は、自動運転車の領域である (私が長い間予期していた通りである、たとえば2016年のこの記事を参照) 。当初、エンドツーエンドのディープラーニングがこの問題を何かしら解決できると考えられていた。これは、特にNvidia社によって大きく宣伝された約束である。もはやこの約束を信じている人間が地球上に1人でも残っているとは思わないが、けれども私は間違っているかもしれない。昨年のカリフォルニア州自動車両局による自動運転車の手動運転切替 [Disengagement] 報告書 を見ると、Nvidia社の自動運転車両は、手動運転に切り替えることなしには、文字通り10マイル走行することも不可能であったという。別の記事で、私は自動運転車開発の一般的な状況および人間のドライバーの安全性との比較を議論したが、その結果は (ネタバレ注意) あまり良くは見えない。2016年以来、TeslaのAutoPilotは何件かの事故を起こしており [1, 2, 3] その中には致死的な事故もあった [1, 2]。 TeslaのAutoPilotは自動運転と混同するべきではないが、しかし少なくともそのコアは同種の技術に依存している。今日では、時おりの驚くほどのエラーを除くとしても、自動運転車は未だ交差点で停止したり、信号を認識したり、環状交差点を進むことすらできない。これを書いている2018年5月の時点で、Teslaの自動運転車が西海岸から東海岸まで走行するという約束の時期から数ヶ月経過している (実現していないものの、Teslaがそれに挑戦しているという噂はある。けれども、30回程度の手動運転切り替えなしには走破できなかったようだ)。数ヶ月前 (2018年2月) イーロン・マスクは、電話会議で北米大陸横断の自動運転について尋ねられたとき、このように繰り返した:


「我々は、西海岸から東海岸への自動走行を実現できただろうが、あまりに特殊化したコードを必要とし、事実上ごまかしであるか、またはあまりに脆弱な方法となっていただろう。またそれは限定された特定の経路しか走行できず、一般的なソリューションにはならないだろう。だから、私はそれを再現できると思っているが、もしも他の経路で使えなければ、それは真のソリューションではない。

ニューラルネットの最前線でどれほどの進歩が発生しているか、私はかなり興奮している。そして、その進歩は小さい - また、進歩しているように見えないのは指数関数的な進歩の性質の1つだ - それほど進歩しているようには見えない。確かにそれほど進歩しているようには見えないが、突然驚きの瞬間が訪れる。不器用な運転手、不器用な運転手に見えるというのは、まぁまぁ良い感じなのだ。『なんてこったい!』と驚くほど、この自動運転車は素晴しいのだ。すぐにそうなるだろう。」


はい。上記のグラフ (OpenAI) からは、私には指数関数的な進歩は見えないようだ。この分野のあらゆる巨大プレイヤーの手動運転切り替えまでの走行距離を見ても、指数関数的な進歩は見られない。本質的には、上記の宣言はこのように解釈するべきであろう:「現在我々は西海岸から東海岸へ安全に走行できるテクノロジーを保持していない。しかし、我々は本当にその実現を望んでいるかのようにごまかすことができる(たぶん…)。我々は、ニューラルネットワークの何らかの能力の指数関数的なジャンプが起こり、不名誉と莫大な民事訴訟から我々を救い出してくれると強く望んでいる。」

けれども、これまでのところ、AIバブルを突き刺した最大の針は、アリゾナ州でUberの自動運転車が起こした歩行者死亡事故であった。国家運輸安全委員会による予備報告書から、いくつかの驚くべき事実を読み取れる。


[画像中の文章]

自動運転システムから取得されたデータによると、衝突の6秒前、システムは当初レーダーとLIDARによる観測を歩行者として認識した。その当時、車両は時速43マイルで走行していた。車両と歩行者の経路が収束すると、自動運転システムのソフトウェアは、歩行者を未知の物体として、車両として、次に自転車として分類し、未来に予期される経路の確率はさまざまであった。衝突の1.3秒前、自動運転システムは、衝突の衝撃を緩和するために、緊急ブレーキ操作が必要であると決定した (図2参照)。Uberによれば、車両がコンピュータ制御されている間は、潜在的に不規則な車両の動作を避けるために、緊急ブレーキ操作は無効化されていたという。車両オペレータが介入し行動を取ることを想定している。システムはオペレータに警告するよう設計されていない。


本報告書から明らかなシステム設計上の一般的欠陥は脇に置くとしても、システムが正面に見える物体が何であるか(歩行者か、自転車か、車両あるいは他の何か) を決定するために長い秒数を費していたことは驚愕である。むしろ、このような状況下で唯一の論理的な決断は、見えるものが何であれ衝突を回避することではないだろうか。これにはいくつかの理由がある:第一に、人々はしばしば自分の決断を事後に [post factum] 言語化する。そこで、人間は典型的にこのように述べるだろう:「私は自転車乗りを見たので、彼を避けるために左にハンドルを切った。」 膨大な量の認知科学の文献は、完全に異なる解釈を示唆している:人間が何か素早く動く物体を眼にすると、神経系の高速な知覚ループにより障害物として解釈され、機敏に回避行動が取られる。何秒も経過した後でようやく何が起きたかを認識し、言葉による説明を与えるのである。我々は毎日大量に言語化されない決断を下しており、運転にはその多くが含まれている。言語化にはコストと時間を要し、現実はその時間を与えてはくれない。これらのメカニズムは十億年にもわたって進化してきたもので、我々を安全に保っている。そして、運転のコンテキストでは (現代的ではあるが) これらの反射能力の多くが活用されている。これら反射能力は運転に向けて進化してきたものではないため、間違いが含まれることもある。車内でのハチの羽音に対する反射的反応が、多数の事故と死を引き起こしてきたかもしれない。けれども、三次元空間と速度に対する一般的な理解、エージェントの振る舞いと、我々の経路を横切る物理的物体の振る舞いに対する予測能力は、プリミティブなスキルである。それらのスキルは1億年前と同様に今日でも有用であり、進化を通してゆっくりと磨き上げられていったものである。

けれども、これらのスキルは言語化が容易ではないため、測定は難しく、結果としてこれらの側面において機械学習システムが最適化されることはない [私の過去記事ではこれらの能力に向けたベンチマークを提案している] これはNvidiaのエンドツーエンドのアプローチ、すなわち、画像の学習→行動のマッピング、言語化のスキップを支持していると言えるかもしれない。そして、ある意味では、これは正しい方法ではあるのだが… 問題は、入力空間は信じがたいほどに高次元である一方で、行動空間は低次元である [入力画像は膨大である一方で、取りうる行動は極めて限られている]。ゆえに、「ラベル」の「量」(読取)は、入力情報の量と比較すれば極端なまでに少量である。このような状況では、容易に疑似関係を学習してしまう。ディープラーニングの敵対例 [adversarial examples] によって示されるように。異なるパラダイムが求められており、システムが疑似相関ではなく世界の意味を抽出できるようにするめの最初のステップとして、私は行動に沿った知覚入力全体を予測する手法を仮定している。[プリディクティブビジョンモデルと名付けたアーキテクチャの最初の提案を読んでほしい]

実際のところ、我々がディープラーニングの爆発から何かを学べるとすれば、(1万次元の) 画像空間には十分な疑似パターンがあり、実際に多数の画像に渡って汎化すれば、我々の分類器がまるで本当に見たものを理解しているかのような印象を与えることができるということだ。これほど真実から遠く離れていることも他にあるまい。この分野に大きく投資しているトップの研究者でさえ認めることなのだから。実際のところ、多数のトップ研究者は私の投稿に対して激怒することもないだろう。ヤン・ルカンは、しばらく前に過剰な興奮とAIの冬に対する警告を発しており、ジェフリー・ヒントン - バックプロパゲーションの現在の爆発の父 - でさえ、インタビューで現状は袋小路であり、我々はまたやり直す必要があるだろうと認めているくらいなのだから。けれども、現時点においては、ハイプはあまりにも力強く、誰も耳を貸そうとしていない。たとえ、この分野の創始者の言葉であっても。


ゲイリー・マーカスとハイプに対する探究

より著名な研究者が人々の傲慢さを認識しており、公然とそれに挑戦する勇気を持っていることに言及しておかなければなるまい。この分野で最も活躍しているのは、ゲイリー・マーカスである。AI研究の観点からは、私はゲイリーの提案すべてに同意するわけではないけれども、ディープラーニングはハイプ・プロパガンダで描写されているほどには強力ではないという主張に同意する。実際のところ、そこに近付いてすらいない。理解できていない人のために、彼は素晴らしい論文とブログ記事、『ディープラーニング:批判的評価』『ディープラーニングについての懐疑論を擁護するために』を書いている。そこで彼は細心の注意を払ってディープラーニングのハイプを解体している。私はゲイリーを大いに尊敬する。彼は、本物の科学者がそうあるべきという振る舞いをしている。一方で、ほとんどのいわゆる「ディープラーニングスター」はチープなセレブのように振る舞っているのだ。


結論

AIの冬の時代を予測することは、株式市場のクラッシュを予測するようなものだ。いつ起こるかを正確に言うことは不可能だが、いつかの時点で確実に発生する。株式市場のクラッシュ直前のように、差し迫った崩壊の兆候はあるけれども、物語は非常に力強く、たとえ目前に迫っていても無視することは非常にたやすい。私の考えでは、そのようなディープラーニング分野の巨大な衰退の兆候は既に明白であり (また、AI一般についても。この用語が嫌になるほど企業のプロパガンダで濫用されているからだ)、目前に迫っているものの、ますます強烈になる物語によって未だ多数派の視界からは隠されている。次の冬はどれほど「ディープ」になるだろうか? 私には分からない。次に何が来るだろうか? 私には分からない。それでも、私は次のブームが来るだろうと楽観しているし、そしてそれは遅れるよりも早まるだろう。