135
112

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

2022年の深層学習ハイライト

Posted at

ogp.jpg

はじめに

2023年になって日が経ってしまいましたが、今年も深層学習の個人的ハイライトをまとめたいと思います。今回は研究論文5本と応用事例4つを紹介します。他におもしろいトピックがあれば、ぜひコメントなどで教えて下さい。

AIの研究動向に関心のある方には、ステート・オブ・AIガイドの素晴らしい年間レビューもおすすめします。また、私が過去に書いた記事(2021年2020年2019年)もよろしければご覧ください。

* 本記事は、私のブログにて英語で書いた記事を翻訳し、適宜加筆修正したものです。元記事の方も拡散いただけると励みになります。
** 記事中の画像は、ことわりのない限り対象論文からの引用です。

研究論文

Block-NeRF: Scalable Large Scene Neural View Synthesis

2020年にNeRFneural radiance field)が登場して以来、その機能を拡張するための派生研究が盛んに行われています。CVPR 2022では、50以上のNeRFの論文が見られました(論文リストはこちら)。

Block-NeRFは、そのような論文の中でも際立っています。一般的なNeRFの亜種は単一のオブジェクトをレンダリングするように学習されますが、この手法は町全体のシーンをレンダリングすることが可能です。以下のデモでは、San FranciscoのAlamo Square周辺をレンダリングしています。

大規模なシーンのレンダリングは、照明、天候、移動物など、入力写真の撮影条件が異なるため、困難なタスクとなります。Block-NeRFは、この問題を分割統治によって解決します。シーン全体を複数のサブシーンに分割し、それぞれにBlock-NeRFのモデルを割り当てるのです。あるシーンをレンダリングするためには、モデルを視点からの可視性によってフィルタリングし、次に各モデルの出力を視点からの距離に基づいて結合します。この方法には、シーンの拡張や特定のサブシーンの更新が容易であるという利点があります。

image.png

Multi-Game Decision Transformers

昨年、オフライン強化学習offline reinforcement learning)の強力なベースラインとして Decision Transformer (DT) が登場しました。という話を聞くと、「事前学習されたTransformerが様々な自然言語タスクに汎化するのと同じように、DTで汎化エージェントを作ることも可能か?」という疑問が生じます。

この問いに答えるため、研究者たちは、Atariのゲームのうち41個をオフライン学習に使い、他の5個を未知タスクでの性能評価用に残して、マルチゲームの設定でDTを訓練しました。オフラインの学習データには、熟練者の経験だけでなく、非熟練者の経験も含まれています。本研究で使用したDTのインターフェースは下図の通りです。

image.png

事前学習されたマルチゲームエージェント(ファインチューニングなし)は、個別ゲームの専門エージェントには及ばないものの、学習中に見た41個のゲームについて人間レベルの性能を超えることができました。しかし、マルチゲームDTは他のすべての汎用エージェントに勝っています。つまり、DTで汎用エージェントを作ることは可能だということです。

image.png

さらに、自然言語タスクで知られているスケーリング則が、オフライン強化学習でも成立することが初めて確認されました。新規ゲームにおいて、CQLと呼ばれる従来手法はモデルサイズを増やすと性能が低下するのに対して、DTは性能が改善しました。これは強化学習の基盤モデルの開発に向けた重要な一歩となるでしょう。

image.png

Scaling Laws vs Model Architectures: How does Inductive Bias Influence Scaling?

  • 著者: Yi Tay, Mostafa Dehghani, Samira Abnar, Hyung Won Chung, William Fedus, Jinfeng Rao, Sharan Narang, Vinh Q. Tran, Dani Yogatama, Donald Metzler
  • URL: https://arxiv.org/abs/2207.10551

近年、Transformerのスケーリング則が多くの研究者の注目を集め、言語モデルの大規模化に拍車がかかっています。同時に、2017年に登場したTransformerの計算効率を向上させるべく、多くの代替アーキテクチャが提案されてもいます。

これらの代替アーキテクチャはスケールするのか否かという疑問が生じるのは自然でしょう。そこで、この研究では、上流(言語モデリング)と下流(SuperGLUE)の両タスクにおいて、Transformerの亜種とCNNを含む異なるモデルアーキテクチャを比較することにより、この疑問に答えています。

image.png

その結果は上の図にまとめられていますが、解釈が少し難しいかもしれません。重要なポイントは以下の通りです。

  • 上流におけるスコアは下流におけるスコアとあまり相関がない
  • 最適なアーキテクチャは、モデルの規模によって異なる可能性がある
  • ALBERTやMLP-Mixerのようなモデルは、大規模化によって性能が劣化する
  • 全体としては、元祖Transformerが最も優れたスケーリング性能を示す

Cold Diffusion: Inverting Arbitrary Image Transforms Without Noise

拡散モデルdiffusion model)は、Gaussianノイズの数学的な扱いやすさから、Langevin力学や変分推論などの理論による説明が可能です。しかし、本論文では、このような理解に対して、「Gaussianノイズは本当に拡散モデルに必要なのか」という疑問を投げかけています。

著者らは実験により、他のノイズを選択しても拡散モデルが機能することを観察しました。これは、ノイズが決定的である場合(例:ブラーやマスキングなど)でも成り立ちます。この発見は、従来のGaussianノイズという要件に縛られない新しい生成モデルの開発への扉を開くものです。

image.png

Robust Speech Recognition via Large-Scale Weak Supervision

大規模なTransformerモデルとWebスケールのデータの恩恵を享受できるモダリティは、視覚と言語だけではありません。近年、これらの技術は自動音声認識 (automatic speech recognition; ASR)に適用されるようになりました。Whisper (web-scale supervised pre-training for speech recognition)は、前例のない量の書き起こしデータに対して学習させた大規模なTransformerです。これにより、従来のモデルに比べて頑健性を高めながら、多言語での書き起こしと英訳を実現します。

頑健性は、モデルが異なるデータセット間でどれだけ汎化できるかを規定するため、ASRの性能において重要な側面と言えます。下図に示すように、単一のデータセット(LibriSpeech)で学習した従来のASRモデルは、他のデータセット(Common Voiceなど)では低い性能を示しています。人間はこのような振る舞いをしません。しかし、Whisperはこのギャップを埋めることに成功しました。

image.png

Whisperの優れた性能は、これまでのモデルと異なる2つの重要な点に起因します。1つ目は、膨大な量の学習データを消費したことです。Whisperはインターネットから収集した68万時間に及ぶ書き起こしデータで学習しました。これは、これまでの教師ありモデルの10倍以上の規模であり、音声パターンの多様性をより包括的に表現することができます。しかし、このような大量のデータを収集することは容易ではありません。インターネット上の多くの書き起こしデータは既存のASRシステムによって生成されたものだからです。そこで研究者たちは、「書き起こし語」による汚染を避けるために、学習データをきれいにするための多くのヒューリスティックを開発しました。

2つ目の要因は、事前学習の方法です。Whisperは、多言語音声認識、英訳、言語識別、発話検出といった複数の音声処理タスクによって訓練されました。このアプローチにより、Whisperは音声翻訳と言語識別の機能を先天的に備えています。

image.png

応用事例

Stable DiffusionとDreamStudio

2022年は、数多くのtext-to-imageモデルが誕生した年でした。 DALL・E 2midjourneyStable DiffusionImagenPartiMuseなど、数え上げればきりがありません。その中でもStable Diffusionはオープンソースであり、他のモデルよりも高速に動作するため、特筆すべき存在です。生成AIのスタートアップ企業であるStability AIは、text-to-imageのマネージドサービスである DreamStudioにStable Diffusionを採用しています。

わずか1年で、AIが生成する絵は至るところで目にするようになりました。この記事の最初に貼った画像はStable Diffusionによって生成されたものです。

ChatGPT

もし「AI Company of the Year」なる賞があるとしたら、それはおそらくOpenAIに贈られるでしょう。2022年、同社はDALL・E 2、Whisper、そしてChatGPTを発表し、世界を3回も驚かせました。

ChatGPTはGPT-3.5の亜種ですが、「アラインメント」の性能において大きく異なります。ChatGPTはこれまでのGPTシリーズと異なり、人間のフィードバックによる強化学習reinforcement learning from human feedback; RLHF)と呼ばれるプロセスによって、人間の価値観に沿うように訓練されています。しかし、それ以上のことは今のところ何も開示されていません。「RLHF」として具体的に何をしたのか?大量のリクエストをどうやって高速に処理しているのか?こういった情報が公開されることを望んでいます。

この記事の元になった英語版の執筆の過程では、ChatGPTを利用しました。

YouChatとPerplexity

2023年2月、MicrosoftとOpenAIが協力してChatGPTをBingに統合し、検索エンジンにおけるGoogleの独占的な地位に挑み始めました。しかし、YOU.comのYouChatやPerplexityでは、この技術を一足早く2022年から提供していました。検索バーに質問を入力すると、チャットボットが関連するウェブページを参考資料とともに要約して回答してくれます。これにより、回答に根拠があるかどうか、またその根拠が信頼できるかどうかを確認することができます。これは、言語モデルの「でっち上げ」の問題(hallucination)に対する解決策と言えるでしょう。

image.png

Gran Turismo Sophy

Sonyは、カーレースゲームのために、Gran Turismo Sophyと名付けた強化学習エージェントを開発しました。GT Sophyは、プロのプレイヤーをも凌駕する性能を発揮しました。

GT Sophyの技術は、高精度なシミュレータ、強化学習アルゴリズム、分散・非同期学習、ハイパフォーマンスコンピューティング (HPC) の組み合わせで構成されます。その詳細は、Natureに掲載された論文で紹介されています。

おわりに

業界の発展が一段と加速して、流石に追いかけるのが大変になってきましたが、これからも「細く長く」をモットーに続けていきます。

135
112
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
135
112

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?