[Nvidia x Meta] AIの未来: トークン予測の先へ - Yann LeCun × Bill Dallyの対談から見るAI技術の展望

Posted at 2025-04-14

Frontiers of AI and Computing: A Conversation With Yann LeCun and Bill Dally | NVIDIA GTC 2025 より

1. はじめに：LLMの先を見据えて

1.1 LLMからの脱却

Meta AI Chief ScientistのYann LeCun氏とNVIDIAのChief ScientistであるBill Dally氏による対談から、AIの現在と未来について深い洞察を得ることができます。この対談で最も印象的だったのは、LeCun氏の「もはやLLM（大規模言語モデル）には興味がない」という発言です。🤔

「LLMはある意味で過去のものになりつつあります。今は産業界の製品開発者の手に委ね、マージンを改善し、より多くのデータや計算リソース、合成データを生成することに取り組んでいます。」- Yann LeCun

LeCun氏が今興味を持っているのは、以下の4つの領域です：

機械に物理的な世界を理解させる方法
機械に永続的なメモリを持たせる方法
機械に推論させる方法
機械に計画を立てさせる方法

これらは現在のLLMが不得意とする分野であり、真の知能を実現するために必要な要素と言えます。

1.2 物理世界を理解するAI

私たちは物理的な世界の精神的モデル（メンタルモデル）を持っています。例えば、ペットボトルの上部を押すと倒れることや、底部を押すとスライドすることを直感的に理解しています。この種の物理世界の理解は、生後数ヶ月で獲得され、実世界と対話するための基盤となっています。🌍

LeCun氏によれば、言語を扱うことよりも実世界を扱うことの方がはるかに難しいと言います。それは、言語が離散的（トークンの有限集合）であるのに対し、自然界は連続的で高次元だからです。

2. 世界モデルと推論

2.1 トークンベースモデルの限界

現在のLLMはトークン予測に基づいています。典型的なLLMでは、10万程度の可能なトークン（単語や部分単語）の確率分布を出力します。これは言語処理には効果的ですが、ビデオや画像などの自然データを理解するには不十分です。📊

LeCun氏は、ピクセルレベルでのビデオ予測を試みるすべての取り組みが基本的に失敗してきたと指摘しています。例えば、部屋のビデオを撮影してカメラをパンし、システムに続きを予測させようとすると、システムは各人の詳細な外見を予測することはできません。世界には予測不可能な要素が多く存在するため、ピクセルレベルでの予測はリソースの無駄遣いになりがちです。

基礎知識：トークンとは
AIにおける「トークン」とは、テキストを処理する最小単位です。英語では単語や部分単語、日本語では文字や単語がトークンになります。例えば「こんにちは世界」は複数のトークンに分割されます。LLMはこれらのトークン間の関係を学習しています。

2.2 ジョイント埋め込みアーキテクチャ

LeCun氏が提案する解決策は、「ジョイント埋め込み予測的アーキテクチャ（Joint Embedding Predictive Architecture: JAPA/JPA）」と呼ばれるものです。このアプローチでは：

ビデオや画像などの入力を取得
エンコーダーを通じて表現（埋め込み）を生成
その続きや変換されたバージョンも同様にエンコード
入力空間ではなく表現空間で予測を行う

このアプローチの利点は、システムが予測不可能な細部に資源を浪費せず、代わりに意味のある抽象的表現を学習できることです。また、学習にも少ないリソースで済むという利点があります。

2.3 抽象空間での推論

LeCun氏は、現在のLLMにおける推論のアプローチが非効率的だと指摘しています。現在のエージェントシステムは多数のトークン列を確率的に生成し、その中から最良のものを選択するという方法をとっています。

「これはプログラムの書き方を知らずにプログラムを書くようなものです。ランダムなプログラムを書いて、すべてテストし、正しい答えを出すものを残すという方法です。完全に無駄です。」- Yann LeCun

人間の推論は言語空間ではなく抽象的な精神状態で行われます。例えば、空中に浮かぶ立方体を想像してそれを垂直軸の周りに90度回転させるという思考実験は、言語とは無関係に行えます。猫でさえ、家具に飛び乗る際の軌道を計画するなど、もっと複雑なことを行っています。🐱

LeCun氏が目指す新しいアーキテクチャは、この種の抽象空間での推論を可能にするものです。

3. 次世代AIの技術実装とハードウェア

3.1 計算能力の要件

抽象空間での推論や計画立案は、計算コストが高くなると予想されます。心理学者が言うところのシステム1（自動的・直感的な処理）とシステム2（意識的・熟考的な処理）に例えると、現在のAIシステムはシステム1に相当し、LeCun氏が提案する抽象空間での推論はシステム2に当たります。⚙️

LeCun氏は、テキストだけでAGI（汎用人工知能）を実現することは不可能だと説明しています。典型的なLLMは約30兆トークン（約10^14バイト）で訓練されますが、これは人間が40万年以上かけて読むテキスト量に相当します。対照的に、4歳児は起きている16,000時間で、視覚を通じて同量のデータ（約10^14バイト）を処理しています。これは、テキストのみに基づく訓練では、実世界を理解する知能の実現には不十分であることを示しています。

3.2 ニューロモーフィックコンピューティングと新技術

ニューロモーフィックコンピューティング（生物学的神経システムを模倣したハードウェア）について質問されたLeCun氏は、短期的にはGPUに取って代わる可能性は低いと回答しています。その理由として：

現在のデジタル半導体技術は非常に成熟している
アナログ計算では、ハードウェアの再利用が難しい
大規模ニューラルネットを単一チップに収めることができない
チップ間通信にはデジタル方式が必要（ノイズ耐性のため）

生物学的な脳からの示唆として、LeCun氏は多くの動物の神経細胞間の通信がスパイク（二値信号）を通じて行われ、これはデジタル通信に相当すると指摘しています。例外は、C.エレガンス（1mm長の線虫）のような小さな動物で、302個の神経細胞しか持たないため、アナログ通信を利用できます。🧠

3.3 エッジデバイスのためのメモリ内処理

一方で、エッジコンピューティングの分野では、メモリ内処理（Processor-in-Memory: PIM）技術に可能性があると見ています。例えば：

スマートグラスのような低電力デバイス
常時オンの視覚処理
センサー上での直接処理（チップ外へのデータ移動を減らす）

「データの移動がエネルギーを消費するのであって、計算自体ではありません。」- Yann LeCun

人間の生物学もこれを解決しています。網膜には約6,000万個の光受容体があり、その前に4層の透明なニューロンがあり、信号を処理して視覚皮質に送られる神経繊維は100万本に圧縮されています。これは、有用な情報のみを抽出する効率的な設計です。👁️

4. オープンソースとAIの未来

4.1 オープンソースAIモデルの意義

LeCun氏は、オープンソースAIプラットフォームの強力な擁護者です。その理由として：

良いアイデアは世界中からやってくる
一つの組織や企業が独占的に良いアイデアを生み出すことはできない
科学の進歩は、アイデアの交換と協力から生まれる

「AIの進歩と人間レベルのAIへの道のりには、あらゆる人々からの貢献が必要です。秘密裏にR&Dを行う単一の組織からは生まれません。」- Yann LeCun

具体例として、LeCun氏はResNet（残差ネットワーク）の論文を挙げています。これは過去10年間で科学の全分野で最も引用された論文で、2015年に北京のMicrosoft Researchの中国人科学者によって発表されました。この事実は、良いアイデアは世界中どこからでも生まれる可能性があることを示しています。🌏

4.2 LLaMAとAIエコシステム

MetaのオープンソースモデルであるLLaMAの成功は、オープンソースモデルの影響力を示しています。LeCun氏によると、LLaMAは10億回以上ダウンロードされ、AIスタートアップのエコシステムを活性化しました。

LLaMAの背景には興味深いストーリーがあります。これは、2022年にMetaのFAIR（Facebook AI Research）で進行していた複数のLLMプロジェクトの一つでした。リーダーシップから多くのリソースとサポートを受けた大規模プロジェクトがある一方で、パリの約12人の「海賊」チームが独自のLLMを構築するという小規模プロジェクトがありました。このプロジェクトがLLaMAとなり、大規模プロジェクトは中止されたのです。

「すべてのサポートがなくても、良いアイデアを思いつくことはできます。もし管理者からある程度独立していて、放っておいてもらえれば、スケジュールに沿って革新するように求められるよりも、より良いアイデアを思いつくことができます。」- Yann LeCun

4.3 グローバル協力と発展の展望

LeCun氏は、AIの進歩は単一のイベントではなく、継続的な進展の積み重ねになると強調しています。また、真に高度なAIを実現するためには、世界中からの貢献が必要だと考えています。

特に言語や文化の多様性をサポートするAIモデルには、グローバルな協力が不可欠です。世界中のすべての言語でのデータを収集して単一の組織に渡すことは現実的ではありません。LeCun氏は、地域がデータ自体を提供せずに、グローバルな基盤モデルのトレーニングに貢献する分散型の訓練モデルを提案しています。

「基盤モデルはオープンソースになり、世界中のさまざまなデータセンターが異なるデータのサブセットにアクセスして、基本的にコンセンサスモデルをトレーニングするという分散型の方法で訓練されるでしょう。」- Yann LeCun

LeCun氏は、JAPAアーキテクチャのような新しいアプローチが小規模で機能し始めるのは3〜5年以内であり、人間レベルのAIは10年程度で実現する可能性があると予測しています。⏱️

5. まとめ：AIとの共存の未来

対談の結論として、LeCun氏は私たちとAIとの将来の関係についてのビジョンを示しました：

「超知能を含む将来のAIシステムとの関係は、私たちが彼らの上司になるというものです。超知的な仮想人物のスタッフが私たちのために働くことになるでしょう。私は自分より賢い人と一緒に働くのが好きです。それは世界で最も素晴らしいことです。」- Yann LeCun

LeCun氏は、将来のAIアシスタントは驚異的に多様になると予測しています。これらのアシスタントは：

世界中のすべての言語を話す
あらゆる文化や価値観を理解する
さまざまな専門分野や興味の中心をカバーする
多様なバイアスや政治的意見を持つ

この多様性は、民主主義や情報の自由な流れにとって重要です。多様なアシスタントは、多様なメディアが必要である理由と同じように必要とされています。

LeCun氏は、AIがその能力を最大限に発揮するためには、オープンソースかつグローバルな協力が不可欠であると結論づけています。そして、AIの進歩は人類に利益をもたらすものであるべきであり、私たちは常にそのプロセスをコントロールし続けるべきだと主張しています。🤝

理解度チェッククイズ

AIの未来についての理解度をチェックしましょう！

Yann LeCunが現在最も興味を持っている研究領域は？
- LLMのさらなるスケールアップ
- 物理世界を理解するAI
- テキスト生成の改善
- 画像認識の精度向上
ジョイント埋め込み予測的アーキテクチャ（JAPA）の特徴として正しいのは？
- ピクセルレベルでの予測を行う
- トークン予測に基づいている
- 表現空間での予測を行う
- 言語処理専用のアーキテクチャである
LeCunによると、人間の推論はどのように行われるか？
- 言語（トークン）空間で
- 抽象的な精神空間で
- 確率分布の計算によって
- シンボル操作によって
LLaMAのオープンソース化によるダウンロード数は？
- 100万回
- 1,000万回
- 1億回
- 10億回以上
LeCunが予測する人間レベルのAI実現の時期は？
- 1〜2年以内
- 3〜5年以内
- 約10年程度
- 50年以上先

答え

1. 物理世界を理解するAI
2. 表現空間での予測を行う
3. 抽象的な精神空間で
4. 10億回以上
5. 約10年程度

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up