1.初めに
2022年11月にChatGPTが登場してから2023年はAIの激動の進化でしたね。
よりAGIが現実になってきたと思うので、Google DeepMindが発表しているAGIを定義した論文を前半部分まで読んでみました。
読んだ論文はこちらです→ https://arxiv.org/pdf/2311.02462.pdf
読みやすくするため、PDF論文をWebページにレンダリングしてくれるサイトやGoogle翻訳を使いました。
https://www.arxiv-vanity.com/papers/1812.08008/
2.AGIの定義
まずAGIの定義から。
Artificial General Intelligenceの略で、日本語では"汎用人工知能"と訳されます。
汎用人工知能に対して、特定人工知能があります。
特定は文字通り、ある特定の分野、自動運転や画像認識などに特化した人工知能です。
これに対して汎用人工知能は
3.論文
3.1 ケーススタディ
9つのケーススタディを取り上げ、その長所と限界について考察します。
・ケーススタディ1
チューリングテスト、テキストが別の人間によって作成されたのか、それとも機械によって作成されたのかを区別します。
AGIはプロセスではなく機能の観点から定義する必要があります。
・ケーススタディ2
強力なAI 意識を持つシステム
哲学者のジョン・サールは「強力な AI によれば、コンピューターは単なる心の研究のツールではなく、むしろ適切にプログラムされたコンピュータは、文字通り、理解して他の認知状態を持つと言えるという意味で、適切にプログラムされたコンピュータは実際には心である」と言っている。
強力なAIはAGIを達成するための1つの方法である可能性がありますが、その方法について科学的なコンセンサスはありません。
機械が意識などの強いAI属性を持っているかどうかを判断するため、この枠組みのプロセス指向の焦点は非現実的になります。
・ケーススタディ3
人間の脳への類似
人工知能」という用語が最初に使用されたのは、Mark Gubrud による軍事技術に関する1997年の記事でした。
この論文では、AGI を「複雑さと速度において人間の脳に匹敵する、またはそれを上回る AI システム」と定義しています。一般知識を取得、操作、推論することができ、基本的にあらゆる分野で使用できます。
人間の知性が必要となる産業または軍事作戦の段階。」
パフォーマンスが人間のような学習に依存していないということは、厳密な脳ベースのプロセスと
AGI にはベンチマークは本質的に必要ありません。
・ケーススタディ4
認知タスクにおける人間レベルのパフォーマンス
Legg と Goetzel は、2001 年にコンピューター科学者の間で AGI という用語を普及させました。
AGI は、人間が通常行うことができる認知タスクを実行できるマシンです。
特に非物理的なタスクに焦点を当てています(つまり、AGI の前身としてロボットの実装を必要としない)。
AGI の他の多くの定義と同様、この枠組みでは、「何をするか」などの選択に関して曖昧さが生じます。
・ケーススタディ5
タスクを学習する能力。
シャナハン氏は、AGI は「特定のタスクの実行に特化されていない人工知能」であると示唆しています。
しかし、人間と同じくらい広範囲のタスクを実行することを学ぶことができます。
このフレームの重要な特性
AGI を達成するための要件にメタ認知タスク (学習) を含めることの価値を強調していることです。
この枠組みの重要な特性は、AGI を達成するための要件の中にメタ認知タスク (学習) を含めることの価値を強調していることです。
・ケーススタディ6
経済的に価値のある仕事
OpenAI の憲章では、AGI を「最も経済的に価値のある作業において人間を上回るパフォーマンスを発揮する高度に自律的なシステム」と定義しています
この定義は、基礎となるメカニズムに依存しないパフォーマンスに焦点を当てているため、「プロセスではなく機能」という基準に基づいた強みがあります。 さらにこの定義は測定の潜在的な基準を提供します。
経済的価値。 この定義の欠点は、「一般知能」の一部と考えられる基準をすべて捉えていないことです。
明確に定義された経済的価値を持たない可能性のある知性に関連するタスクが数多くあります (芸術的創造性や感情的知性など)。
このような特性は、経済指標で間接的に説明される可能性があります。
(たとえば、芸術的創造性が本や映画を生み出す可能性があり、心の知能指数が CEO として成功する能力に関連している可能性があります)。
ただし、経済的価値が「知性」の全領域を捉えているかどうかは依然として不明である。
経済的価値の観点から見た AGI の枠組みに関するもう 1 つの課題は、これが導入の必要性を暗示していることです。
その価値を実現するために AGI の機能を重視するのに対し、機能に重点を置く場合は、AGI がタスクを実行する可能性のみが必要になる場合があります。
私たちは技術的に以下のことを実行できるシステムを持っているかもしれません。
経済的に重要なタスクであるにもかかわらず、さまざまな理由(法的、倫理的、社会的など)でその経済的価値に気づいていない。
・ケーススタディ7
柔軟かつ一般的 「コーヒー テスト」と関連する課題
マーカス氏は、AGI が「人間の知能に匹敵する(またはそれを超える)機知と信頼性を備えた、柔軟かつ汎用的なあらゆる知能(多くの知能があるかもしれない)の略語」であると示唆しています。
人間の知性に匹敵する(またはそれを超える)機知と信頼性を備えています。
この定義は、(信頼性を含めることにより) 一般性とパフォーマンスの両方を捉えています。 「柔軟性」についての言及は注目に値します。なぜなら、これはシャナハンの定式化と同様に、メタ認知的であることを示唆しているからです。
十分な汎用性を実現するには、新しいスキルを学習する機能などのタスクを AGI の機能セットに含める必要があります。 さらに、マーカス氏は5つの具体的な提案によって彼の定義を運用化しています。
AGI のレベル: AGI タスクへの道における運用化の進捗 (映画の理解、小説の理解、任意のキッチンでの料理、バグのない 10,000 行のプログラムの作成、自然言語の数学的証明の記号形式への変換)
定義にベンチマークを添付することは有益です。 ただし、十分に包括的なベンチマークを構築するには、さらに多くの作業が必要になります。 これらのタスクの一部が失敗すると、システムが AGI ではないことを示すことに同意しますが、それらのタスクに合格するだけで十分であるかどうかは不明です
AGIステータスについては。 「AGI のテスト」セクションでは、AGI の一般性を把握するために必要かつ十分な一連のタスクを開発する際の課題についてさらに説明します。
またマーカス氏が提案したタスクの1つである「任意のキッチンで有能な料理人として働く」(スティーブ ウォズニアックの「コーヒー テスト」)には、ロボットによる具現化が必要です。
これは非物理的なタスクに焦点を当てた他の定義とは異なります。
・ケーススタディ8
有能な人工知能。
スレイマン氏は、『The Coming Wave』の中で、オープンワールドで複雑な複数ステップのタスクを実行するのに十分なパフォーマンスと汎用性を備えたAIシステムを指す「人工知能 (ACI)」の概念を提案しました。
より具体的には、スレイマン氏は、「現代のチューリング テスト」と名付けたACIスキルの経済ベースの定義を提案しました。
この定義ではAIに 10 万ドルの資本が与えられ、それを数カ月かけて 100 万ドルに変える任務が与えられます。
この枠組みは、経済的に価値のある仕事のOpenAIの定義よりも狭く、財政上の利益のみをターゲットにすることで潜在的に調整リスクを引き起こす可能性があるというさらなる欠点もあります。
しかし、スレイマン氏の概念の強みは、人間が大切にする複雑で複数のステップからなるタスクの実行に焦点を当てていることです。
100万ドルを稼ぐというよりも広く解釈すると、ACIが複雑な現実世界のタスクに重点を置いているのは注目に値します。
なぜなら、そのようなタスクは現在の多くのAIベンチマークよりも生態学的妥当性がある可能性があるからです。
・ケーススタディ9
ゼネラリストとしての SOTA(State-of-the-Art) LLM。
最先端の LLM (例: GPT-4、Bard、Llama、Claude の 2023 年半ばの展開) はすでに AGI であると示唆し、一般性は次のとおりであると主張しました。
これはAGIの重要な特性であり、言語モデルは幅広いトピックを議論し、幅広いタスクを実行し、マルチモーダルな入出力を処理し、複数の言語で動作し、ゼロショットまたは少数ショットの例から「学習」できるためです。 、
それらは十分な一般性を達成しています。 汎用性がAGIの重要な特性であることに私たちは同意しますが、汎用性はパフォーマンスの尺度とも組み合わせる必要があると仮定します。
または数学を実行するが、それが確実に正しいわけではない場合、その一般性はまだ十分なパフォーマンスを発揮していません。
3.2 AGI の定義: 6 つの原則
これら 9 つの AGI の定式化例 (または AGI に隣接する概念) を反映して、AGI の明確で運用可能な定義に貢献すると思われる特性と共通点を特定します。
私たちは、AGI の定義は次の 6 つの基準を満たす必要があると主張します。
-
プロセスではなく、能力に焦点を当てます。 定義の大部分は、AGIがタスクを達成するメカニズムではなく、AGI が達成できることに焦点を当てています。 これは、必ずしも AGIを達成するための前提条件ではない特性を特定するために重要です (ただし、それでも興味深い研究トピックになる可能性があります)。
この機能に重点を置くことで、AGIの要件から以下を除外することができます。 -
汎用性とパフォーマンスに重点を置きます。 上記の定義はすべて、さまざまな程度で一般性を強調していますが、一部の定義はパフォーマンス基準を除外しています。
私たちは、一般性とパフォーマンスは AGI の重要な要素です。 次のセクションでは、これらの次元間の相互作用を考慮したレベル化された分類法を紹介します。 -
認知的タスクとメタ認知的タスクに焦点を当てます。AGIの基準としてロボットの具現化を要求するかどうかは、議論の余地があります。
タスクとは、非物理的なタスクを意味します。 最近のロボット工学の進歩にもかかわらず、AIシステムの物理的能力は非物理的能力に比べて遅れているようです。 物理世界での具体化は、いくつかの認知タスクで成功するための世界知識を構築するために必要である可能性があり、少なくともいくつかのクラスの認知タスクで成功するための1つの道である可能性があります。
それが真実であることが判明した場合、AGIへのいくつかの経路では実施形態が重要になる可能性があります。 物理的なタスクを実行できる機能はシステムの汎用性を高めることを提案しますが、AGIを達成するための必要な前提条件と見なすべきではありません。 一方で、メタ認知能力 (新しいタスクを学習する能力や、いつ人間に説明や支援を求めるべきかを知る能力など) は、システムが汎用性を達成するための重要な前提条件です。 -
導入ではなく、可能性に焦点を当てます。システムが所定のパフォーマンス レベルで必要な一連のタスクを実行できることを実証できれば、システムがAGIであると宣言するには十分です。 オープンワールドでのこのようなシステムの展開は、AGIの定義に固有のものであってはなりません。
たとえば、労働代替の一定レベルに達するという観点から AGIを定義するには現実世界への展開が必要ですが、労働の代替能力という観点から AGIを定義する場合は可能性に焦点を当てることになります。 AGIを測定する条件として導入を要求すると、法的および社会的考慮事項、および潜在的な倫理的および安全性の問題など、技術的以外のハードルが生じます。 -
生態学的妥当性に焦点を当てる。AGIに向けた進捗状況のベンチマークに使用できるタスクは、提案された定義を運用するために重要です。 これについては「AGIのテスト」セクションで詳しく説明しますが、ここでは、人々が評価する現実世界のタスクと一致するタスクを選択することの重要性を強調します。
これは、自動化や定量化は簡単だが、人々が AGIで評価するであろうスキルを捉えられない可能性がある従来の AI 指標を避けることを意味する可能性があります。 -
単一のエンドポイントではなく、AGIへのパスに焦点を当てます。 運転自動化のレベルの標準セットの採用により、自動運転車に関する政策と進歩についての明確な議論が可能になったのと同様に、「AGIのレベル」を定義することには価値があると私たちは考えています。 後続のセクションで説明するように、AGIの各レベルが明確なセットに関連付けられることを意図しています。
メトリクス/ベンチマーク、各レベルで導入される特定されたリスク、およびその結果として生じる人間とAIのインタラクション パラダイムへの変化。 AGIを定義するこのレベルベースのアプローチは、多くの著名な定式化の共存をサポートします。たとえば、Aguera y Arcas & Norvig の定義は、私たちの AGIの「新興AGI」カテゴリーに分類されます。
一方、OpenAI の労働力代替の閾値は、「Virtuoso AGI」とより一致しています。
私たちの「コンピテントAGI」レベルは、おそらく、AGIの多くの既存の定義を包括する最良のレベルです。
次のセクションでは、AGIのレベルベースのオントロジーを紹介します。
3.3 AGIのレベル
・Level 0 : AGIでない
狭義:狭い非AI、計算ソフトウェア、コンパイラ
一般的:人間参加型コンピューティング
・Level 1 : 新興
同等かそれよりも若干優れている、未熟な人間
狭義:シンプルなルールベースのシステム
一般的:新興のAGI(ChatGPT,BardLlama 2)
・Level 2 : 有能
少なくとも50パーセンタイルの熟練者、大人
狭義:有能な狭いAI 毒性検出器、Siri(Apple)などのスマートスピーカー、Alexa((Amazon)、またはGoogle アシスタント(Google)。 VQAシステム、PaLI など。
Watosn(IBM); タスクのサブセット用の SOTA LLM (例: 短いエッセイの執筆、簡単なコーディング)
一般的:有能なAGI、まだ達成されていない
・Level 3 : 専門
少なくとも90パーセンタイルの熟練者、大人
狭義:Expertな狭いAI スペルと文法チェッカーGrammarlyなど。 ImagenやDall-E2などの生成画像モデル
一般的:有能なAGI、まだ達成されていない
・Level 4 : 名手
少なくとも99パーセンタイルの熟練者、大人
狭義:Deep Blue、AlphaGo
一般的:有能なAGI、まだ達成されていない
・Level 5 : 超人
人間の100%を上回るパフォーマンスを発揮する
狭義:AlphaFold、AlphaZero、StockFish
一般的:AGIを超えるASI(超人工知能)
4 読んだ感想
最近、論文を読むようになったのですが、言い回しが難しいですね。さらに英語の論文なので、理解に苦労しました。
(やるもんじゃなかったw)
というのは置いておいて、定義レベルはわからないですが、これAGIじゃない?と思えるものは、最近の進化の速さを鑑みて2~3年では出てくるのではないかと思います。