はじめに
2023年になって日が経ってしまいましたが、今年も深層学習の個人的ハイライトをまとめたいと思います。今回は研究論文5本と応用事例4つを紹介します。他におもしろいトピックがあれば、ぜひコメントなどで教えて下さい。
AIの研究動向に関心のある方には、ステート・オブ・AIガイドの素晴らしい年間レビューもおすすめします。また、私が過去に書いた記事(2021年、2020年、2019年)もよろしければご覧ください。
* 本記事は、私のブログにて英語で書いた記事を翻訳し、適宜加筆修正したものです。元記事の方も拡散いただけると励みになります。
** 記事中の画像は、ことわりのない限り対象論文からの引用です。
研究論文
Block-NeRF: Scalable Large Scene Neural View Synthesis
- 著者: Matthew Tancik, Vincent Casser, Xinchen Yan, Sabeek Pradhan, Ben Mildenhall, Pratul P. Srinivasan, Jonathan T. Barron, Henrik Kretzschmar
- URL: https://arxiv.org/abs/2202.05263
- プロジェクトページ: https://waymo.com/research/block-nerf/
- 採録: CVPR 2022
Scalable Large Scene Neural View Synthesis [Tancik+, 2022, CVPR]
— Shion Honda (@shion_honda) April 11, 2022
環境全体の3D復元ができるBlock-NeRFを提案。環境を円で分割して複数のNeRFを学習させ、推論結果は距離と視認性に基づいて組み合わせる。天候の変化や物体の移動に対処するための工夫も追加。https://t.co/Cz34wPrGld#NowReading pic.twitter.com/vpfnOzf8xH
2020年にNeRF(neural radiance field)が登場して以来、その機能を拡張するための派生研究が盛んに行われています。CVPR 2022では、50以上のNeRFの論文が見られました(論文リストはこちら)。
Block-NeRFは、そのような論文の中でも際立っています。一般的なNeRFの亜種は単一のオブジェクトをレンダリングするように学習されますが、この手法は町全体のシーンをレンダリングすることが可能です。以下のデモでは、San FranciscoのAlamo Square周辺をレンダリングしています。
大規模なシーンのレンダリングは、照明、天候、移動物など、入力写真の撮影条件が異なるため、困難なタスクとなります。Block-NeRFは、この問題を分割統治によって解決します。シーン全体を複数のサブシーンに分割し、それぞれにBlock-NeRFのモデルを割り当てるのです。あるシーンをレンダリングするためには、モデルを視点からの可視性によってフィルタリングし、次に各モデルの出力を視点からの距離に基づいて結合します。この方法には、シーンの拡張や特定のサブシーンの更新が容易であるという利点があります。
Multi-Game Decision Transformers
- 著者: Kuang-Huei Lee, Ofir Nachum, Mengjiao Yang, Lisa Lee, Daniel Freeman, Winnie Xu, Sergio Guadarrama, Ian Fischer, Eric Jang, Henryk Michalewski, Igor Mordatch
- URL: https://arxiv.org/abs/2205.15241
- プロジェクトページ: https://sites.google.com/view/multi-game-transformers
- ソースコード:https://github.com/google-research/google-research/tree/master/multi_game_dt
- ブログ記事:https://ai.googleblog.com/2022/07/training-generalist-agents-with-multi.html
- 採録: NeurIPS 2022
Multi-Game Decision Transformers [Lee+, 2022, NeurIPS]
— Shion Honda (@shion_honda) December 31, 2022
DTをAtariの複数タスク・オフラインRLという設定で訓練。既知ゲームでは人間以上特化モデル未満のスコアを達成。未知ゲームへのファインチューニングでは事前学習の効果を確認。モデルは大きいほど強い。https://t.co/1Tmb4DR7Wi#NowReading pic.twitter.com/s6c2F4dQrP
昨年、オフライン強化学習(offline reinforcement learning)の強力なベースラインとして Decision Transformer (DT) が登場しました。という話を聞くと、「事前学習されたTransformerが様々な自然言語タスクに汎化するのと同じように、DTで汎化エージェントを作ることも可能か?」という疑問が生じます。
この問いに答えるため、研究者たちは、Atariのゲームのうち41個をオフライン学習に使い、他の5個を未知タスクでの性能評価用に残して、マルチゲームの設定でDTを訓練しました。オフラインの学習データには、熟練者の経験だけでなく、非熟練者の経験も含まれています。本研究で使用したDTのインターフェースは下図の通りです。
事前学習されたマルチゲームエージェント(ファインチューニングなし)は、個別ゲームの専門エージェントには及ばないものの、学習中に見た41個のゲームについて人間レベルの性能を超えることができました。しかし、マルチゲームDTは他のすべての汎用エージェントに勝っています。つまり、DTで汎用エージェントを作ることは可能だということです。
さらに、自然言語タスクで知られているスケーリング則が、オフライン強化学習でも成立することが初めて確認されました。新規ゲームにおいて、CQLと呼ばれる従来手法はモデルサイズを増やすと性能が低下するのに対して、DTは性能が改善しました。これは強化学習の基盤モデルの開発に向けた重要な一歩となるでしょう。
Scaling Laws vs Model Architectures: How does Inductive Bias Influence Scaling?
- 著者: Yi Tay, Mostafa Dehghani, Samira Abnar, Hyung Won Chung, William Fedus, Jinfeng Rao, Sharan Narang, Vinh Q. Tran, Dani Yogatama, Donald Metzler
- URL: https://arxiv.org/abs/2207.10551
Scaling Laws vs Model Architectures [Tay+, 2022]
— Shion Honda (@shion_honda) August 12, 2022
様々なアーキテクチャのモデルをスケールさせたときの性能(言語モデリングと下流タスク)の変化を調査。最適なモデルはFLOPsによって異なるが、全体的には素のTransformerが強く、改良版はスケールしにくい。https://t.co/aqZQ7OWpFK#NowReading pic.twitter.com/3Gv0sHpDgs
近年、Transformerのスケーリング則が多くの研究者の注目を集め、言語モデルの大規模化に拍車がかかっています。同時に、2017年に登場したTransformerの計算効率を向上させるべく、多くの代替アーキテクチャが提案されてもいます。
これらの代替アーキテクチャはスケールするのか否かという疑問が生じるのは自然でしょう。そこで、この研究では、上流(言語モデリング)と下流(SuperGLUE)の両タスクにおいて、Transformerの亜種とCNNを含む異なるモデルアーキテクチャを比較することにより、この疑問に答えています。
その結果は上の図にまとめられていますが、解釈が少し難しいかもしれません。重要なポイントは以下の通りです。
- 上流におけるスコアは下流におけるスコアとあまり相関がない
- 最適なアーキテクチャは、モデルの規模によって異なる可能性がある
- ALBERTやMLP-Mixerのようなモデルは、大規模化によって性能が劣化する
- 全体としては、元祖Transformerが最も優れたスケーリング性能を示す
Cold Diffusion: Inverting Arbitrary Image Transforms Without Noise
- 著者: Arpit Bansal, Eitan Borgnia, Hong-Min Chu, Jie S. Li, Hamid Kazemi, Furong Huang, Micah Goldblum, Jonas Geiping, Tom Goldstein
- URL: https://arxiv.org/abs/2208.09392
- ソースコード: https://github.com/arpitbansal297/Cold-Diffusion-Models
Cold Diffusion [Bansal+, 2022]
— Shion Honda (@shion_honda) October 25, 2022
従来の拡散モデルは正規分布に従うノイズ付加・除去を前提としてきたが、劣化手法にブラーやダウンサンプリングなどの決定的操作を採用しても画像生成ができることを発見した。Langevin動力学や変分推論で説明がつかない結果。https://t.co/7u1DHkVZOz#NowReading pic.twitter.com/d9dMIOB83d
拡散モデル(diffusion model)は、Gaussianノイズの数学的な扱いやすさから、Langevin力学や変分推論などの理論による説明が可能です。しかし、本論文では、このような理解に対して、「Gaussianノイズは本当に拡散モデルに必要なのか」という疑問を投げかけています。
著者らは実験により、他のノイズを選択しても拡散モデルが機能することを観察しました。これは、ノイズが決定的である場合(例:ブラーやマスキングなど)でも成り立ちます。この発見は、従来のGaussianノイズという要件に縛られない新しい生成モデルの開発への扉を開くものです。
Robust Speech Recognition via Large-Scale Weak Supervision
- 著者: Alec Radford, Jong Wook Kim, Tao Xu, Greg Brockman, Christine McLeavey, Ilya Sutskever
- URL: https://arxiv.org/abs/2212.04356
- ソースコード: https://github.com/openai/whisper
- ブログ記事: https://openai.com/blog/whisper/
Robust Speech Recognition via Large-Scale Weak Supervision [Radford+, 2022]
— Shion Honda (@shion_honda) December 30, 2022
Webから収集した68万時間の音声・書き起こしペアでTransformerを訓練した多言語ASRモデル(Whisper)を提案。事前学習は書き起こしや英訳などのマルチタスクで実施。OODに頑健。https://t.co/VvRgqBUsGZ#NowReading pic.twitter.com/kr2X0xPWyz
大規模なTransformerモデルとWebスケールのデータの恩恵を享受できるモダリティは、視覚と言語だけではありません。近年、これらの技術は自動音声認識 (automatic speech recognition; ASR)に適用されるようになりました。Whisper (web-scale supervised pre-training for speech recognition)は、前例のない量の書き起こしデータに対して学習させた大規模なTransformerです。これにより、従来のモデルに比べて頑健性を高めながら、多言語での書き起こしと英訳を実現します。
頑健性は、モデルが異なるデータセット間でどれだけ汎化できるかを規定するため、ASRの性能において重要な側面と言えます。下図に示すように、単一のデータセット(LibriSpeech)で学習した従来のASRモデルは、他のデータセット(Common Voiceなど)では低い性能を示しています。人間はこのような振る舞いをしません。しかし、Whisperはこのギャップを埋めることに成功しました。
Whisperの優れた性能は、これまでのモデルと異なる2つの重要な点に起因します。1つ目は、膨大な量の学習データを消費したことです。Whisperはインターネットから収集した68万時間に及ぶ書き起こしデータで学習しました。これは、これまでの教師ありモデルの10倍以上の規模であり、音声パターンの多様性をより包括的に表現することができます。しかし、このような大量のデータを収集することは容易ではありません。インターネット上の多くの書き起こしデータは既存のASRシステムによって生成されたものだからです。そこで研究者たちは、「書き起こし語」による汚染を避けるために、学習データをきれいにするための多くのヒューリスティックを開発しました。
2つ目の要因は、事前学習の方法です。Whisperは、多言語音声認識、英訳、言語識別、発話検出といった複数の音声処理タスクによって訓練されました。このアプローチにより、Whisperは音声翻訳と言語識別の機能を先天的に備えています。
応用事例
Stable DiffusionとDreamStudio
2022年は、数多くのtext-to-imageモデルが誕生した年でした。 DALL・E 2、midjourney、Stable Diffusion、Imagen、Parti、Museなど、数え上げればきりがありません。その中でもStable Diffusionはオープンソースであり、他のモデルよりも高速に動作するため、特筆すべき存在です。生成AIのスタートアップ企業であるStability AIは、text-to-imageのマネージドサービスである DreamStudioにStable Diffusionを採用しています。
わずか1年で、AIが生成する絵は至るところで目にするようになりました。この記事の最初に貼った画像はStable Diffusionによって生成されたものです。
ChatGPT
もし「AI Company of the Year」なる賞があるとしたら、それはおそらくOpenAIに贈られるでしょう。2022年、同社はDALL・E 2、Whisper、そしてChatGPTを発表し、世界を3回も驚かせました。
ChatGPTはGPT-3.5の亜種ですが、「アラインメント」の性能において大きく異なります。ChatGPTはこれまでのGPTシリーズと異なり、人間のフィードバックによる強化学習(reinforcement learning from human feedback; RLHF)と呼ばれるプロセスによって、人間の価値観に沿うように訓練されています。しかし、それ以上のことは今のところ何も開示されていません。「RLHF」として具体的に何をしたのか?大量のリクエストをどうやって高速に処理しているのか?こういった情報が公開されることを望んでいます。
この記事の元になった英語版の執筆の過程では、ChatGPTを利用しました。
YouChatとPerplexity
2023年2月、MicrosoftとOpenAIが協力してChatGPTをBingに統合し、検索エンジンにおけるGoogleの独占的な地位に挑み始めました。しかし、YOU.comのYouChatやPerplexityでは、この技術を一足早く2022年から提供していました。検索バーに質問を入力すると、チャットボットが関連するウェブページを参考資料とともに要約して回答してくれます。これにより、回答に根拠があるかどうか、またその根拠が信頼できるかどうかを確認することができます。これは、言語モデルの「でっち上げ」の問題(hallucination)に対する解決策と言えるでしょう。
Gran Turismo Sophy
Sonyは、カーレースゲームのために、Gran Turismo Sophyと名付けた強化学習エージェントを開発しました。GT Sophyは、プロのプレイヤーをも凌駕する性能を発揮しました。
GT Sophyの技術は、高精度なシミュレータ、強化学習アルゴリズム、分散・非同期学習、ハイパフォーマンスコンピューティング (HPC) の組み合わせで構成されます。その詳細は、Natureに掲載された論文で紹介されています。
おわりに
業界の発展が一段と加速して、流石に追いかけるのが大変になってきましたが、これからも「細く長く」をモットーに続けていきます。