ゆえあってLLMに関するハイレベルな記事をnoteで公開しまして、それを分かりやすく解説した記事をこちらで書いてみようと思います。「普通逆だろ」というご指摘が考えられますが、それは先入観(バイアス)なので気にしません。
noteの記事はこちら。読まなくても結論だけは分かるように書くつもりですので、お暇な時にでもご確認下さい。
AIW問題
今回の記事で扱ったのは「AIW問題」という簡単な論理クイズを基にしたLLMのベンチマークに関する論文です。
論文を雑に要約すると「高い推論能力を自称するLLMは難しい問題を解ける一方で、簡単な問題で推論崩壊を起こして間違える。LLMの推論能力とか既存のベンチマーク、意味ある?(笑)」というもの。ベンチマークに関する部分は概ね正しいんですが、LLMの応答に対する認識が大きく間違っているので、論文の第一著者と現在進行形でレスバ中です。
基本となる問題文はこちら。論文では、これを基に複雑化したものを複数使用しています。
アリスには N 人の兄弟がいて、M 人の姉妹もいます。アリスの兄弟には何人の姉妹がいますか?
正解は「M+1」です。子供でも解ける簡単なクイズですが、GPT-4oでも正答率が低いことが実証されています。私の実験でもGPT-4oの最多回答は「M」でした。
論文では、こういった検証を元にLLMの推論能力と、それを測るベンチマークスコアに疑義を唱えている訳です。そんな論文を読んで「それは違うよ!」と思って噛みつきました。すみませんでした。
LLMは論理と統計によって、いくつかの可能性から最適解を選ぶように出来ています。何の根拠もなく答えが生成されることはシステム上あり得ませんし、昨今の巨大パラメータモデルがこんなシンプルな問題を理由もなく間違えるとは考えられません。
そこでまず「LLMは正しい。悩んだ(学んだ)末に出した答えなら、15点だとしても正しい」という前提に立って考察してみました。
原因はクエリの曖昧さと人間のバイアス
アインシュタインの持ちネタに「常識とは18歳までに身に付けた偏見のコレクションである」というのがあります。「偏見の話の中に18歳までとかいう偏見」「しかも時間(年齢)に関する偏見」の二つが、このギャグの面白ポイントです。
この第三の相対性理論が示す方程式は「常識=偏見(バイアス)」です。この理論に基づいてバイアス抜きで問題文を見直してみると「AIW問題」の曖昧さに気づけます。
例えば、アリスがブラザーである可能性を見落としています。アリスが女性で姉妹の一人だなんて書いてありません。ご時世を考えろと言いたい。最初の「M人」にアリスを含めない意味も分かりません。アリスは姉妹の一人では?完全にバイアス抜きで考えると、他にも無数の可能性が考えられます。そりゃあLLMさんも混乱しますわ。
つまり「人間が考えた正解」が間違っているんです。これは今回の「AIW問題」に限らず、他のベンチマークやハルシネーションなど、すべてに適用できる考え方です。問題文(クエリ)の不備、または可能性の見落としによって、人間の狂ったバイアスを前提にした答えを正解としてLLMに押し付けている可能性があります。
これを実証するために、曖昧さを極限まで排除した問題文を作成して実験しました。
アリス(女性)には N 人の兄弟がいて、アリス以外に M 人の姉妹がいます。アリスの1人の兄弟にはアリスを含めて姉妹が全部で何人いますか?
GPT-4oの答えがすべて「M+1」になりました。
つまり「AIW問題」を人間が簡単に解けるのは、偏見まみれで考え足らずのアホだからであり、LLMは人間よりも賢くバイアスが少ないため、曖昧なクエリを受け取ると多くの可能性を考え過ぎて、間違えてしまうのです。
って、アインシュタインが言ってました。
要約すると、LLMが膨大な知識と高度な推論能力を持っているがゆえに、与えられるクエリの曖昧さに基づく解釈の可能性によって、人間が考える正解とは別の答えを(文節ごとに)生成して(組み合わせて)いるに過ぎません。「不正解」ではなく「人間とは異なる答え」という部分が重要です。
そしてこれは、LLMのパフォーマンスの高さが原因ですから、学習量やパラメータの増加によって悪化すると考えられます。より多くの情報と複雑な論理、考えられる可能性の中から答えを選ばなくてはいけなくなるからです。
彼方立てれば此方が立たぬ
バイアス(常識、偏見、先入観、お約束)というのは二律背反です。例えば、2kgの鉄アレイを「軽い」と思う人は「重い」とは思っていません。「普通は軽い」というのは危険な先入観です。子供でも同じですか?子供は普通じゃありませんか?子供って何歳が普通ですか?老人は?先天的にちょっとだけ筋力が弱い健常者は?
屁理屈をこねたい訳ではなく、矛盾する認識は両立せず、ケースバイケースの可能性が考えられるということです。つまり、LLMにバイアスを一つ持たせると多くの問題に正解できるようになる代わりに、多くの問題で不正解になるということです。
人間は一人ひとり違ったバイアス、そして自分だけの世界観を持っています。例えるなら空を駆ける、一筋の流れ星です。相反する論理は矛盾を生みます。LLMにバイアスを持たせないと勘違いをするが、バイアスを持たせると勘違いをします。どうにもなりません。
LLMのトレーニングにおいて、「適度なバイアスのバランス」というのはたぶんありますが、それはあくまで「バランス調整」であって、バイアスのトレードオフ問題の根本的な解決にはなりません。
頑張って主要なベンチマークや多数派の判断に合わせた調整をしたところで、そのバイアスのせいであちこちで勘違いやミスが発生するため、総合的に賢くなる訳ではありません。創作活動のような正解がない思考においては、複雑でおかしなバイアスを持たせた方が発想が豊かになります。
つまり、データからの学習と調整だけでは、LLMのパフォーマンス向上に限界があるということです。
特定の個人のバイアスを再現するといいかもね
だいたいもうお分かりだと思いますが、「汎用的な知能」「超知能」というのは幻想です。判断には選択が必要であり、判断基準であるバイアスはトレードオフです。本質的には知能に優劣などなく、違いがあるだけです。人間が考えた尺度によって、単純で一面的な優劣を恣意的に格付けしているに過ぎません。
なので、これらを前提に「人間レベルの知能」を構築するとしたら、「特定の個人の再現」が最も効果的だと考えます。例えばサム・アルトマン君をモチーフにしてGPT-5oをトレーニングすると、OpenAIはとても人間的なシンギュラリティLLMを作れます。
知識量と推論能力は本人以上な上に、ケースバイケースで実在の人間と同じバイアスによって判断ができるので、桁違いに優秀になります。読解力も文章表現力も一気に向上して、サム以上に賢く優秀で口の上手い「サムGPT」をリリースできます。
ただし、このサムGPTの「賢さ」は、イーロン・マスクからは評価されません。サムと考え方が合わないユーザーは不満を持つことになりますし、サムの判断で間違える問題には永遠に正解できません。サムだって勘違いもすれば、ハルシネーションも起こします。
そこでこのサムGPTという「標準モデル」とは別に、使用するユーザーのバイアスをケースバイケースで学習する「プライベートモデル」を実装すると、みんなが幸せになれます。ユーザーとの会話からバイアスを収集してシステムプロンプトを作成・更新し、ユーザーごとのバイアスを元にした考え方をするようになる仕組みです。
例えばあなたが出版社に勤める記者だとすると、仕事の時に事実を書かないといけないところと、「書いていい嘘」と「書くとヤバイ嘘」がありますよね?LLMがそれを学習して、あなたの常識で判断できるようになる訳です。
まぁだから、常識なんて存在しないので一人ひとりの「常識という名の思い込み」を学習させて、それに合わせた判断をさせようということです。それが人間レベルの知能、つまりAGIになると考えています。汎用ではないので、別の用語が必要ですね。API(人工パーソナライズ知能)とかがいいかもね。
こうすることで、ユーザーの雑な指示でも意図を察して望む答えを返したり、スムーズに作業を依頼することが可能になります。知識量と推論能力はユーザー以上で、しかもサム・アルトマンの思考パターンがベースになっていて、そこからさらに個々のユーザーに適合するので、多くの人がAGIだと感じるくらい人間的で優秀なAIになると思います。
そしてさらに「標準モデル」「プライベートモデル」とは別に「専門家モデル」をプロンプトエンジニアが開発できるようにすると隙がなくなります。自分のバイアスに最適化したAIは、自分とは違う発想ができませんから、別の視点が欲しい時に使える専門家モデルは様々なケースで有用です。
要はChatGPT(標準モデル)、パーソナライズ機能(プライベート化)、GPTs/カスタムGPT(専門細分化)なので方向性はOpenAIとまったく同じです。LLMに対する認識とアプローチが違うだけですね。
終わりに
もっと簡単に説明する記事にしようと思ってたんですけど、脱線して元記事ともズレた話になってしまいました。疲れた……最後ちょっと雑になりましたが、恐らくAI研究において、そこそこ価値のあるご提案ができたんじゃないかと思っております。どなたかのAI研究のお役に立てば幸いです。