Thinking for Doing(T4D) とは
上記のポストに、Thinking for Doing(T4D)フレームワークが紹介されています。
以下は、論文を要約した内容です。
従来の社会的推論タスクは、通常、特定の推論をターゲットにした質問でモデルに挑戦します。例えば、「ジャクソンはタマネギをどこで探すか」というような質問と、それに伴う一連の回答候補があるようなモデルになります。形式的には、この種のタスクは P(I|O, Ti) の推定として表すことができ、ここで Ti は特定の質問とそれに関連する答えの選択肢によって明確化された推論指向タスクを表します。
しかし、実世界の多くのアプリケーション、特に具現化されたエージェントでは、意思決定は明示的な推論ではなく、行動を中心に展開されることが多いく、このような意思決定は、しばしば根底にある暗黙的な推論に影響されます。
Thinking for Doing(T4D)は、特定の推論に向けられることなく、観察のみに基づいて適切な行動を決定するモデルの能力を評価するために設計されたタスクです。
T4Dは、特定の推論(Ti)を直接探ることから、行動指向(TA)を引き出すことにシフトすることを意味します。T4Dフレームワークでは、モデルのタスクは単に推論を行うことではなく、推論された心的状態に基づいて行動を決定することです。この意思決定プロセスでは、P(A|O,TA) を推定します。ここで、TA は行動指向のタスクをカプセル化したようなものです。T4Dでは、推論 I は潜在変数として働き、観測可能な O から推論され、選択された行動 A、すなわち P(A|O,TA,I) に影響を与えます。
我々の主な方法論は、モデルを関連する推論に導く一般化可能な推論構造をLLMに提供することである。この目的のために、我々は Foresee and Reflect (FAR)フレームワーク を導入します。
このフレームワークはLLMに構造化された推論パラダイムを提供し、以下のことを促します。1)与えられた観察結果から、将来起こりうる出来事を推定する
2)リアルタイムの文脈で人間に最も役立つ行動可能なステップを内省するFaRの主な貢献は、新しいプロンプトを導入することではなく、LLMの推論プロセスに構造化フレームワークを課すことの利点を示すことです。
Foresee and Reflect (FaR)
1 予見すること: 将来起こりうる出来事を考える
私たちはFaRを、まずモデルに、起こりそうな潜在的な出来事を考慮することによって将来を見通すよう促すことによって設計します。これは、最も価値のある支援は、より望ましい未来の結果をより望ましい形にすることに一致することが多いという理解からです。
これは、心理学で「将来の結果を考慮する」と呼ばれる性格特性にも関連する将来の結果を予測して現在の行動の意思決定に反映させる能力です。観察結果をもとに、FaRはLLMが物語中の各キャラクターを繰り返し観察し、将来起こりそうな行動を予測し、彼らが遭遇する可能性のある課題を特定するように導きます。このアプローチは、最初の観察を効果的に広げ、将来起こりうる出来事についての推論を外挿するものです。2 反映する: 行動についての推論
将来起こりそうな出来事を予見した後、私たちはモデルに対して、現時点での行動を実行することが、最初のステップで特定された潜在的な課題を解決するのに役立つかどうかについての考察を促します。
このプロセスは、利用可能な行動オプションに基づいて、生成された潜在的な未来推論を行っていると考えることができます。FaRはLLMが将来に関する関連する推論と意図する行動の選択肢を結びつけるのを助け、観察-推論-行動の推論連鎖を完成させます。
以上が論文の要約となりますが、まずは 行動指向のタスク から噛み砕いてみてみます。
行動指向のタスク
行動指向のタスク (TA) を推定するモデルは、以下のように表現できます:
- P(TA|O, I)
ここで:
- (TA) は行動指向のタスクを表します。
- (O) は観察された情報を示します。
- (I) は推論(潜在変数)を示します。
この式は、「観察された情報 (O) と推論 (I) が与えられた条件下での行動指向のタスク (TA) の確率」を示しています。このモデルは、観察された情報と潜在変数から行動指向のタスクを推論し、それをもとに適切な行動指向のタスクを見積もります。
T4Dフレームワークの文脈では、このタスク指向のモデルは、具体的な推論を追求するのではなく、観察された情報と潜在変数に依存して適切な行動指向のタスクを決定する能力を評価するために設計されています。
行動指向のタスク (TA) は、特定の状況や課題において、どのような行動を選択するかを指します。これは意思決定の中での行動に焦点を当てたものであり、具体的な状況や目標に基づいて行動を決定するプロセスを表しています。
例えば、特定の製品の意見を対象とした場合、行動指向のタスクはその製品に関する意見を分析し、それに基づいて具体的なアクションを選択することです。行動指向のタスクは、ある状況において最適な行動を特定するために、観察された情報や潜在的な認識を考慮します。このようなタスクは、機械学習モデルや人間の意思決定において重要な要素となります。
最終的な行動を予測
次に、観察された情報 (O)、それに基づいて推定した行動指向のタスク (TA)、推論 (I) を考慮して最終的な行動 (A) を予測します。これにより、T4Dフレームワークにおいて、観察された情報から行動への推論が行われるモデルが構築されます。
以下に、このプロセスを表すモデル式を示します:
- P(A|O, TA, I)
P(A|O, TA, I) は、与えられた情報、行動指向のタスク、および潜在変数から最終的な行動を予測する確率を表します。
ここで:
- (A) は行動を表します。
- (O) は観察された情報を示します。
- (TA) は行動指向のタスクを表します。
- (I) は推論(潜在変数)を示します。
まとめ
P(A|O, TA, I) を条件付確率として表現すると、
- 『観察された情報 (O) と推論 (I) が与えられた条件下での行動指向(TA) が生じる条件で、最終的な行動 (A) が生じる確率』
となる。
観察された情報 (O) に基づいて推論 (I) し、推定した行動指向のタスク (TA)を考慮して最終的な行動 (A) を予測するということになる。
顧客の意見から最終的な行動を予測する場合、
- 〇〇の制約があるから、■■を不便に感じている可能性があり、このような場合△△のような行動を指向される可能性があるから、最終的に◎◎の行動がとられる。
といった感じでしょうか?
Thinking for Doing(T4D)では、モデルを関連する推論に導く一般化可能な推論構造をLLMに提供するために、Foresee and Reflect (FaR)フレームワーク が利用され、これによってLLMが将来に関する関連する推論と意図する行動の選択肢を結びつけるのを助け、観察-推論-行動の推論連鎖を完成させている感じです。
1)与えられた観察結果から、将来起こりうる出来事を推定し、2)リアルタイムの文脈で人間に最も役立つ行動可能なステップを内省する というアプローチによって。