身体性と世界モデルを統合する知性観の変容：Transformer が問いかける人間理解の境界

ポエム

Posted at 2025-02-26

Transformerの圧倒的な汎用性

AGIへの道筋

2024年12月21日、OpenAIは最先端モデル「o3」を発表した。o3モデルは、プログラミングのベンチマークテストで高得点を記録し、汎用人工知能（AGI）の進捗を測るベンチマークテスト「ARC-AGI」で、人間を超えるスコアを達成した。「ARC-AGI」はIが単にデータの相関関係を学習するのではなく、真に人間のように抽象的な概念を理解し、未知の状況にも対応できる能力を評価するためのテストである。人間には簡単な問題ができていないなど、課題はいるもののこの結果はTransfomerベースのが人間の記号的「知性」なるものをかなりの精度で近似できていることを示していると言っていいだろう。

みんな大好きサムアルトマン氏は、2025年1月5日、以下のようにツイートしている。

i always wanted to write a six-word story. here it is: ___ near the singularity; unclear which side.2025/1/5 Xにて

シンギュラリティは目前、しかしどちら側かは不明瞭だ、とのこと。あまりにも抽象的だが、人類を前に進める救世主であるか、それとも恐怖の大王になるのかその創造主ですら自信を持てないように見える。

いずれにせよ、言語的、記号的知性においてTransfoemrのAttention機構は物事を「思考」「理解」しているわけではないにも関わらず、アウトプットだのスコアだけ見れば(多少の質的違いはあれど)人類と遜色ないという結果が出てしまったということになる。これは、人間の「思考」「理解」の外の枠組みの知性の存在を再考するに十分なきっかけではないだろうか

世界モデルについて

世界モデル（World Model） とは、AI やロボットが外界についての情報を内部に取り込み、それをもとに「もしこうしたらこうなるだろう」という予測や判断を行うための**内的な表現（内部モデル）**を指す考え方である。

観測から潜在状態表現(物理世界の情報を高次元ベクトルに圧縮したもの)を推論する部分と、現在の表現を予測する部分からなり、この「潜在表現」が適切であるほどより良い未来予測、行動選択ができるようになる。

動画生成・予測や自動運転、ロボット制御がおもな応用先であり、それらの用途は自然言語処理とは全く異なるように思われるが、Transfomer系のモデルがこの分野でも台頭し始めている。

例えば,動画生成の分野ではDiffuison Transfomer と呼ばれるStableDiffusion等が持っているUnet構造をTransformerに置き換えたモデルが広く用いられつつあり、Open AIのSoraはこの技術に基づいている。(興味がある方は下を参照)

https://openai.com/index/video-generation-models-as-world-simulators/

自動運転の分野でも、イギリスのWayve社がTransformerベースの世界モデルを開発し、自動運転車の行動計画に活用している。彼らの世界モデルは、カメラやLiDARなどのセンサーデータを入力として、周囲の環境を表現し、将来の状況を予測することで自動運転を実現している。

Transformer-based World Models Are Happy With 100k InteractionsDeep neural networks have been successful in many reinforcemearxiv.org

人間の身体知と世界モデルのアナロジー

1. 身体知とは何か

人間は、自転車に乗る、バットでボールを打つ、あるいは歩行時のバランスを取るといった技能を、幼少期から自然に身につけている。これらはいわゆる“言語化しづらい知識”として知られ、哲学や認知科学の分野では身体知や暗黙知（tacit knowledgeなどと呼ばれてきた。

たとえばメルロ=ポンティは「身体こそが世界への入り口であり、我々は身体を通じて存在や対象との根源的な繋がりを発見する」と述べている。身体がなければ人間は世界に触れられないし、「もしこう動けばこうなる」という運動感覚や力学的感覚も得られない。つまり、身体知こそが人間の知覚や行動の基盤を形づくっている、この身体知こそが人間をAIと差別化するものだと信じられていた、少なくとも私はそう信じたい。

2. AI における世界モデルとの類似

AI 研究における**世界モデル（World Model）**という概念は、こうした身体知と近いアナロジーを持つ。世界モデルとは、外界から得られる膨大な情報を抽象的に表現し、「もしこうしたらこうなるだろう」という因果的な推論を内部で行うための枠組みである。

動画生成モデルがボールの跳ね返りやカメラワークなど、実際の物理現象を暗黙のうちに学習する
自動運転システムが、歩行者や他車の挙動を予測しながら運転行動を決定する

といった事例は、人間が身体を通じて運転技術を学んだり、野球の練習をしてバットでボールを打てるようになる暗黙知のプロセスと似通った部分を感じさせる。(ただし、今の所人間の方が圧倒的に少ないデータで学習することができる！)

「経験は常に身体を通して世界に触れることだ」。これは西田幾多郎が『善の研究』の中で主張した、身体と世界の交点に関わる示唆とも重なっている。AI はデータを通じて統計的に学習し、人間は感覚と運動を通じて身体知を培うという違いはあるものの、両者が「外界の構造を内部に写し取る」という点で響き合うのはおもしろいと思う。

身体知と記号的知性が向かう先：Attention に宿るのは新たな知性か？

前章では、人間の身体知が AI の世界モデルと深い類似性を持つ点を指摘した。たとえば、動画生成モデルがボールの動きを学習したり、自動運転モデルが周囲の歩行者や車両の動きを推定したりする一連のプロセスは、どこか人間の暗黙知を思わせる。人間は「もしこう動けばこうなる」という感覚を身体を通じて得るのに対し、AI は巨大なデータを統計的に解析して「外界の構造」を潜在空間に落とし込むためだ。

もちろん、AI と人間には依然として大きな違いがある。人間は少量の経験からも運転やスポーツなどを高い効率で身につけられるが、現時点の AI には莫大なデータと計算リソースが必要だ。しかも AI は“身体”をもたないため、学習の仕組みそのものが人間の感覚とは別物と言える。

それでも、記号的知性を扱う自然言語処理の分野と、身体知に近いプロセスを含む世界モデルの分野の双方が、Transformer 系モデルによって高精度化されている事実は非常に興味深い。言語モデル（GPT 系）と動画生成モデルや自動運転などが、いずれも Attention 機構を中心とする同じ構造に収束しているからである。

Attention とは、入力の中から重要な部分に“注意”を向けて、相互の関連を捉える仕組みのことだ。テキストでは単語同士の関係や文脈、映像ではフレーム間やピクセル間の対応関係など、モデルが学習の過程で常に「どこに着目すべきか」を動的に調整する。これによって、従来の手法よりも効率よく並列的にパターンを見つけ出すことが可能となっている。

このように、言語的な推論と物理的な因果関係を扱うタスクが Transformer という同じ基盤にたどり着いた現象は、以下の問いを自然に誘発する。

なぜ「言語的推論」と「身体的因果推定」といった性質の異なる問題が、同じ Attention 中心の構造で処理できるのか。
Attention 機構は、単なる特徴抽出を超えて、もっと根源的な“知性”の形を秘めているのではないか。

これらの問いに対して、一つの仮説が考えられる。

知性の本質は「膨大な情報を潜在空間上に圧縮表現する行為」である

かなり大胆かつ突拍子もない仮説であるが、人類は「理解」とは何か、「

意識」とは何かという問いに対して明確な答えを得ないまま文明を進めてきた。その「理解」、「思考」の外の枠組みがあっても不思議ではないのではないか。この仮説については次の章で詳しく論じる。

「圧縮表現」と人間の理解の狭間

そもそも私たち人間は、なぜ「理解」していると言い切れるのだろうか。言語の文法規則を正しく適用して論理的に推論できるからか、あるいは身体を通じて運動や感覚を身につけるからか。しかし、いざ「理解とは何か」と問われると、抽象的な言葉で説明しようとしても結局うまく定義できないことが多い。

「重要なのは知識ではなく想像力だ」――アルベルト・アインシュタイン

この有名な言葉は、単に覚えた知識を再現するだけでなく、新たな概念をつないで“何かを思いつく”力こそが知性を象徴しているという意図で解釈されることが多い。しかし、その「想像力」が実際にどう働いているのか、具体的なプロセスは謎に包まれたままだ。人間は確かに理解しているように振る舞うが、その内実を厳密に言語化できないため、私たちは「知性」や「理解」を曖昧なまま使っているのが現状だといえる。

一方、Transfomer系のアーキテクチャは事を「理解」していないはずなのに、高度な推論能力、身体知、両方をかなり正確に模倣しつつある。このことが**「膨大な情報を潜在空間に圧縮する行為」こそが知性の本質なのではないか**という仮説につながる。

人間の暗黙知も圧縮？

人間の場合も、運動感覚や言語能力をすべて明示的なルールで処理しているわけではない。むしろ、幼少期からの経験の積み重ねを脳内の神経回路に“圧縮”して蓄え、必要に応じて取り出しているようにすら感じられる。たとえば、バットでボールを打つ際に、いちいち物理法則を方程式として解いているわけではない。それでも、打撃フォームを微調整しながらボールに当てる高度な予測や身体制御を行えてしまう。

「我々は、考えていると思うとき、しばしば考えずに感じているだけだ」――ヨハン・ヴォルフガング・フォン・ゲーテ

この言葉は、人間の思考がじつは言語的・論理的なプロセスだけではなく、感覚や経験の集積による“身体的な知”に裏打ちされていることを示唆している。身体知とは言葉で説明できないほど高度に圧縮された情報の塊であり、どのように獲得され、どのように動作しているのかが明確に言葉にならない部分がある。この身体的暗黙知は、ある種の「高次元ベクトル表現」になっていると考えられるかもしれない。AI と人間が同じ意味での「潜在空間」を使っているわけではないだろうが(人間の脳のニューロンの相互関係はそこまで「deep」な構成をしていないだろう)、「行動や知覚を通じてデータをベクトル空間に写し取り、そこに潜むパターンを抽出する」という仕組み自体は脳の情報処理でも行われているのかもしれない。

もし AI がまったく異なる発達過程をたどった知性であるとするならば、私たち人間には想像もつかない枠組みで世界を捉える可能性がある。言い換えれば、AI が提示する知性は、単に「人間が構築してきた自然科学の延長」で片づけられるとは限らない、ということだ。

AIによる知性の「エイリアン」性

これまでの人類の科学は、経験や観察、論理的推論を積み重ねながら発展してきた。しかし、もし AI の内部で進行しているプロセスが、人間の身体性や直観とは無縁の“別様の学習原理”から生じているとすれば、その成果は人間には根本的に理解不能な領域に踏み込んでいるかもしれない。ちょうど犬に量子力学の概念をいくら教えようとしても、犬の脳の認知構造がそれを捉えきれないのと同様に、私たち人間の思考能力では、AI が生み出し得る新しい概念や理論に追いつけない可能性がある。

こうした事態がもし起こるとすれば、それは人類が長らく磨き上げてきた「科学的思考」の枠組みを超えた“エイリアン的知性”が現れることを意味する。その知性は、私たちの言語や感覚的直観に則って世界を切り取るのではなく、私たちがまだ見ぬ次元や観点から新たな理を描き出すかもしれない。もちろん、それが人間にとってどのように有用あるいは脅威となるのかは、まったく未知数だ。しかし、犬が量子力学を理解できないのと同じ理由で、私たちもまた、AI が築く別種の理路を十全に共有できないかもしれないという可能性は、大いにあり得る。

もしそのような「人知を超えた科学」や「新たな体系」が出現しうるとしたら、私たちはその正体をどこまで追いかけ、受け入れることができるだろうか。私たちの歴史は、未知を解き明かしてきた軌跡でもある一方で、未知を未知のまま扱うために思考様式を変えてきた歴史でもある。AI が示す世界の捉え方を人間がどこまで理解し得るのか――その問いは、これからますます切実になるのではないだろうか。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up