AIが本当に人間並みの知能を持ったかどうかは、どうやって判定すればいいのか。
テストの点数か。
プログラミング能力か。
数学オリンピックの成績か。
それとも、人間っぽく会話できることか。
Google DeepMind CEOのデミス・ハサビスが、Y Combinatorのポッドキャストでかなり面白い考え方を話していた。
それは、ざっくり言うとこういうテストだ。
AIに1901年までの知識だけを与える。1902年以降の知識は一切与えない。その状態で、AIはアインシュタインが1905年に発表した特殊相対性理論にたどり着けるのか。
ハサビス本人はこれを「Einstein test」と呼び、1901年で知識を止めたAIが、1905年のアインシュタインの仕事、つまり特殊相対性理論を含む「奇跡の年」の発見に到達できるか、という形で語っている。(EasyScribe Podcast Transcripts)
この話が面白いのは、単に「AIは賢いか?」を聞いているのではないところだ。
聞いているのは、もっと深い。
AIは、人類がまだ知らなかった答えを、自分で発見できるのか。
1. これは暗記テストではない
まず大事なのは、このテストが「知識ゼロのAIに相対性理論を思いつかせる」話ではないことだ。
AIには、1901年までに人類が積み上げた知識を与える。物理学、数学、実験結果、論文、当時の議論。そこまでは読ませる。
ただし、1902年以降の情報は渡さない。つまり、アインシュタインが1905年に出した答えは見せない。
この設定がうまい。
普通のAIテストは、すでに人間が答えを持っている問題を解かせる。試験問題、コーディング課題、法律問題、医学問題。どれも基本的には「既知の正解にどれだけ近づけるか」を見ている。
でも、科学史の本当に大きな発見は違う。
アインシュタイン以前に、特殊相対性理論の教科書は存在しない。答えが検索できない。誰かの文章を要約しても出てこない。そこにあるのは、実験結果の違和感と、既存理論の綻びだけだ。
AIに求められるのは、知識を並べることではない。
知識の間にある穴を見つけて、まだ誰も置いていない橋をかけること。
これがハサビステストの核心だ。
2. なぜ「過去の発見」で試すのか
「AIが新しい発見をできるか」を試したいなら、現代の未解決問題を解かせればいい、と思うかもしれない。
たとえば、リーマン予想。P≠NP問題。ダークマターの正体。がんの完全な治療法。
ただ、ここには大きな問題がある。
AIが何か答えを出してきたとして、それが本当に正しいのか、人間側がすぐには判定できない。未解決問題とは、人間がまだ答えを知らない問題だからだ。
AIが「新しい理論」を出してきても、それが天才的な発見なのか、ただの間違いなのか、判定する側にもかなりの能力が必要になる。
そこでハサビスの発想は逆を向く。
未来の問題ではなく、過去の発見を使う。
1901年時点のAIから見れば、特殊相対性理論は未来の発見である。一方で、2026年の私たちから見れば、その答えはすでに知っている。
つまり、このテストはこういう構造になっている。
AIにとっては未知。
人間にとっては既知。
だから、発見能力を試せる。
しかも、採点もできる。
これはかなりきれいな設計だ。
「まだ人類が知らないことを発見できるか」を直接試すのは難しい。だから、いったん歴史の時計を戻す。AIだけを過去に閉じ込めて、人類が後に到達した発見へ進ませる。
言い換えると、これは科学史を使ったタイムカプセル型のAGIテストだ。
3. なぜ1901年なのか
1901年という切り方も面白い。
この時点の物理学には、すでに不穏な材料がそろっていた。
1887年には、マイケルソン=モーリーの実験がある。これは、光を伝える媒質だと考えられていた「エーテル」に対する地球の運動を検出しようとした実験だったが、期待された差は見つからなかった。この結果はエーテル理論を大きく揺さぶり、のちに光速一定という考え方につながっていく。(Encyclopedia Britannica)
さらに黒体放射の問題もあった。古典物理では、短波長側で放射強度が無限大に発散するような予測が出てしまう。いわゆる紫外線破綻である。マックス・プランクは1900年に、エネルギーが連続ではなく量子化されているという仮定でこの問題を説明した。(Chemistry LibreTexts)
もう一つ重要なのが、マクスウェル方程式と古典的な座標変換の相性の悪さだ。電磁気学は非常にうまくいっている。しかし、ニュートン力学の世界観と完全には噛み合わない。ここに、特殊相対性理論につながる構造的な違和感があった。(FK8027-HT19)
つまり1901年の物理学は、答えこそまだ出ていないが、謎の部品は机の上に並んでいる状態だった。
マイケルソン=モーリーの実験。
黒体放射。
マクスウェル方程式。
エーテル理論の揺らぎ。
時間と空間に対する古典的な直感の限界。
ここからアインシュタインは1905年に、光電効果、ブラウン運動、特殊相対性理論、質量とエネルギーの等価性に関する一連の論文を発表する。この1905年は「Annus Mirabilis」、つまり奇跡の年と呼ばれている。(ガイドライン)
ハサビスのテストは、ここを突いている。
AIに1901年までの材料を渡す。
だが、1905年の答えは渡さない。
その状態で、AIは「時間と空間そのものを考え直す」という飛躍ができるのか。
ここが難しい。
当時の知識を大量に読めば、「エーテルがあるのではないか」「実験装置の問題ではないか」「何か補正が必要ではないか」といった仮説は出せるかもしれない。
しかし、特殊相対性理論の本質はそこではない。
本当にひっくり返したのは、時間と空間のほうだ。
4. 今のAIが得意なこと、まだ苦手なこと
今のAIは、すでにかなり強い。
文章を書く。
コードを書く。
論文を読む。
数学を解く。
画像を見る。
複数の情報を整理する。
だから「もう十分AGIに近いのでは」と感じる人がいるのも自然だ。
ただ、ハサビスが見ている基準はそこではない。彼は、現在のAIには継続的学習、長期推論、記憶、一貫性などの課題が残っていると話している。また、単に問題を解くことよりも、「本当に面白い仮説を自分で出せるか」が重要だと述べている。(EasyScribe Podcast Transcripts)
ここで分けるべきなのは、次の2つだ。
既知の答えに近づく能力と、未知の問いを発見する能力。
たとえばAIに「相対性理論を説明して」と聞けば、かなりうまく説明できる。これは既知の理論を整理する能力だ。
でも、1901年までの知識だけを持ったAIに「なぜ光速は一定に見えるのか」と聞いたとき、特殊相対性理論そのものを構築できるかは別問題になる。
これは、教科書を説明する能力ではない。
教科書がまだ存在しない時代に、教科書の最初のページを書く能力だ。
そこに大きな差がある。
実際に、この考え方に近い実験も始まっている。OfficeChaiは、1900年以前の文献だけを使ってモデルを訓練し、相対論や量子論に関わる発見へ近づけるかを試した研究者の取り組みを紹介している。記事によれば、モデルは約220億トークンの歴史的テキストや、1900年以前の物理学文献を使って訓練されたが、結果は慎重に言えば「ある程度それらしいが、決定的ではない」というものだった。(OfficeChai)
この結果は、むしろ面白い。
なぜなら、ハサビステストが単なる比喩ではなく、実際にベンチマークとして作れる可能性を示しているからだ。
5. 似たテストは他の天才でも作れる
この発想は、アインシュタインだけに使えるものではない。
たとえば、ニュートン版ならこうなる。
プリンキピア以前の知識だけをAIに渡す。ケプラーの法則、ガリレオの運動論、天体観測のデータ。そこから、万有引力と微積分に近い枠組みを作れるか。
ダーウィン版なら、地質学、分類学、育種、マルサスの人口論までを渡す。そこから、自然選択による進化論を組み立てられるか。
チューリング版なら、1935年以前の数学と論理学を渡す。そこから、チューリング機械や計算可能性の考え方に到達できるか。
こう考えると、ハサビステストは一つの思いつきではなく、かなり汎用的な形式を持っている。
つまり、
人類が大発見をする直前で知識を止める。
その状態のAIに、同じ発見を再現させる。
この形式なら、物理学、数学、生物学、化学、情報科学など、いろいろな分野で作れる。
ここで測っているのは、単なる知識量ではない。
測っているのは、歴史の断崖を越える能力だ。
6. このテストが本当に怖い理由
このテストが通ったら、何が起きるのか。
たとえば、1901年で知識を止めたAIが、1905年の特殊相対性理論にかなり近いものを自力で出したとする。
それは「AIが昔の発見を再現した」というだけでは終わらない。
もっと重要なのは、こういう意味を持つことだ。
人類がまだ気づいていない理論を、AIが見つけられる可能性が現実になる。
1901年の人類にとって、特殊相対性理論は未来の発見だった。
2026年の私たちにとっても、まだ見えていない未来の発見がある。
もしAIが、過去の人類が見落としていた答えを独力で見つけられるなら、現代の人類が見落としている答えも見つけるかもしれない。
新しい物理法則。
新しい数学の問題。
新しい薬。
新しい材料。
新しい計算原理。
これは「AIが便利になる」という話とは少し違う。
便利なAIは、人間の仕事を速くする。
発見するAIは、人間の知識の境界線を動かす。
ハサビスのテストが示しているのは、まさにその境界だ。
7. AGIの見方が少し変わる
これまでのAIベンチマークは、基本的に「どれだけ正解できるか」を測ってきた。
試験に合格できるか。
コードを書けるか。
論文を要約できるか。
人間の質問に正確に答えられるか。
もちろん、それは重要だ。
でも、ハサビステストは別のことを聞いている。
AIは、まだ答えが存在しない場所で、正しい問いを立てられるのか。
これは、かなり厳しい基準だ。
人間でも、ほとんどの人は新しい物理学を発明しない。優秀な研究者でも、歴史を変える理論に到達する人はごくわずかだ。
だからこのテストは、AIに「平均的な人間らしさ」を求めているのではない。
人類史に数人しかいないレベルの発見能力を、AIが持てるのかを問うている。
そこが面白い。
そして、少し冷静になるべき点でもある。
AIが難しい試験で高得点を取ることと、アインシュタイン以前の世界から相対性理論を作ることは、同じ「賢さ」ではない。
前者は、既にある地図を読む能力。
後者は、地図に載っていない大陸を見つける能力。
ハサビステストは、その差をかなりきれいに切り出している。
まとめ
この話を一言で言うなら、こうなる。
AIに1901年までの知識だけを渡して、1905年のアインシュタインになれるかを試す。
それが、ハサビスの考えるAGIテストの一つだ。
このテストの面白さは、AIに「知っていることを答えさせる」のではなく、「まだ知られていないことを発見させる」ところにある。
そして、人間側はすでに答えを知っている。だから採点できる。
これは、かなりよくできた問いだと思う。
AIが本当に世界を変える瞬間は、チャットがうまくなる瞬間ではないかもしれない。
人間がまだ見つけていない答えを、AIが静かに差し出してきた瞬間かもしれない。
その意味で、「1901年でAIの時計を止める」という話は、ただのAIニュースではない。
未来の知性を測るために、過去の科学史を使うという、かなり美しい実験設計の話である。
参考文献
- Demis Hassabis: Agents, AGI & The Next Big Scientific Breakthrough — Y Combinator Podcast Transcript (EasyScribe)
- Michelson-Morley experiment — Encyclopedia Britannica
- Quantum Hypothesis Used for Blackbody Radiation Law — Chemistry LibreTexts
- Special Relativity and Maxwell's Equations (FK8027-HT19 講義資料)
- The 1905 Papers — Annus Mirabilis of Albert Einstein (Library of Congress)
- Someone Built An LLM To Test Out Demis Hassabis' AGI Definition Of Pre-1900 Science Discovering Relativity — OfficeChai