0
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

10.論文調べ8 Boosting Theory-of-Mind Performance in Large Language Models via Prompting プロンプトによる大規模言語モデルにおける心の理論の性能向上

Posted at

今日の論文です

論文調べ8日目です。
今日はTwitterで見つけた論文で、プロンプトによるChatGPTの回答精度に関する内容です。

手法

論文をperplexityで調べて、PDFをChatPDFに突っ込みます。
論文本文は英語版とDeepLで翻訳した日本語版を保存しときます。
ChatPDFが出した要約をまとめます。
要約の中のわからない単語や追加の質問などをChatGPTに聞きます。
これらをWordにまとめて保存、Qiitaに投稿します。

今日の論文

論文名: Boosting Theory-of-Mind Performance in Large Language Models via Prompting
プロンプトによる大規模言語モデルにおける心の理論の性能向上
出典: Shima Rahimi Moghaddam*, Christopher J. Honey Johns Hopkins University, Baltimore, MD, USA.
url:https://arxiv.org/abs/2304.11490

論文内容

【アブストラクト】
大規模言語モデル(LLM)は、2023年の多くのタスクに秀でているが、複雑な推論ではまだ課題を抱えている。エージェントの信念、目標、精神状態を理解する必要がある心の理論(ToM)タスクは、人間が関わる常識的な推論に不可欠であり、この領域でLLMの性能を高めることが重要である。
本研究では、GPT-4とGPT-3.5亜種(Davinci-2、Davinci-3、GPT3.5-Turbo)のToM性能を測定し、ToM理解度向上における文脈内学習の有効性を検討する。2ショット思考連鎖推論とステップバイステップの思考指示を特徴とするプロンプトを評価した。
その結果、人間からのフィードバックによる強化学習(RLHF)を用いて訓練したLLM(Davinci-2を除く全モデル)は、文脈内学習によってToMの精度が向上することがわかりました。
GPT-4はゼロショット設定において最も優れた性能を発揮し、80%近いToM精度を達成したが、テストセットにおける人間の精度87%にはまだ及ばなかった。しかし、インコンテクスト学習のプロンプトが与えられた場合、RLHFで訓練されたLLMはすべてToMの精度が80%を超え、GPT-4は100%に達しました。
これらの結果は、適切なプロンプトがLLMのToM推論を強化することを示し、LLMの認知能力が文脈依存的であることを強調するものである。

論文要約

【論文要約】
プロンプトによる大規模言語モデルにおける心の理論の性能向上に関するこのエキサイティングなPDFファイルへようこそ!本研究では、LLMにおけるエージェントの信念、目標、心的状態の理解度を向上させるための文脈内学習の有効性を探っています。

要点

1.ToMタスクとは何か、なぜ人間の常識的な推論に必要なのか。

A. ToMタスクは、エージェントが何を目指しているか、何を知っているかなど、エージェントの精神状態を追跡するタスクです。人間の社会的相互作用の基本である、他者の信念、意図、願望を理解する必要があるため、人間の常識的な推論に不可欠です。また、ToMタスクは、他者の行動を予測・説明するためにも重要であり、社会的状況におけるコミュニケーションや協力の成功に不可欠である。(1ページ目)

2.GPT-4とGPT-3.5改良版のToM性能はどのように測定され、その結果は?

A. GPT-4とGPT-3.5改良版(Davinci-2、Davinci-3、GPT-3.5-Turbo)のToM性能を、GPT-4がゼロショットテストで不正解にした4つのシナリオで評価しました。そして、ToM理解度の向上における文脈内学習の有効性を調査した。その結果、LLMはいずれもToMタスクの精度が低かったが、インコンテクスト学習によってその成績が有意に向上した。(23ページ)

3.人間フィードバックからの強化学習(RLHF)とは何か、また、本研究でLLMのToM理解度をどのように向上させたか。

A. RLHF(Reinforcement Learning from Human Feedback)とは、人間の判断に基づきモデルにフィードバックを与える学習方法です。本研究では、RLHFで訓練されたLLM(Davinci-2を除く)は、文脈内学習によりToMの精度が向上しました。また、文脈内学習のためのプロンプトを与えた場合、RLHFで訓練したLLMはすべてToMの精度が80%を超え、GPT-4は100%を達成しました。これらの結果は、適切なプロンプトがLLMのToM推論を強化することを示すものである。(1ページ目)

4.ToMの精度が向上すると、具体的にどのようなメリットが期待できるのでしょうか?

A. ToMの精度向上は、質問応答、対話システム、テキスト生成など、様々な自然言語理解タスクのパフォーマンス向上につながります。また、LLMが人間の意図や感情をより理解できるようになり、より人間に近い会話エージェントを開発するために重要です。さらに、ToMの精度が向上すれば、異なる目標や信念を持つ複数のエージェントが関与する複雑なシナリオにおいて、より良い意思決定を行うことができるようになります。(1ページ目)

5.インコンテキストラーニングプロンプトとは一体何ですか?

A. インコンテキスト学習プロンプトとは、トレーニング中にLLMに与えられる指示で、特定のコンテキストにおけるエージェントの精神状態について推論するように導くものです。このプロンプトは、ToMのパフォーマンスを向上させることが示されている2つの方法である、思考連鎖型推論またはステップバイステップ型思考を促すように設計することができます。思考連鎖型推論では、エージェントの信念や意図を時間をかけて追跡し、ステップバイステップ型思考では、複雑なシナリオを小さなステップに分解し、各ステップについて個別に推論します。(10ページ)

重要単語

  1. ステップバイステップ思考
  2. Few-shot learning
  3. 思考連鎖推論
  4. 教師付きファインチューニング
  5. RLHF
  6. 文脈内学習(ICL)

ChatGPTに聞いてみた

  1. ステップバイステップ思考
    • ステップバイステップ思考は、問題解決や目標達成をするために、大きな目標を細かいステップに分解し、それぞれのステップを順番に実行していく思考法です。
    • 具体的な手順は以下の通りです。

    1. 大きな目標を設定する
    2. 目標を達成するために必要なステップを考える
    3. ステップを順番に実行する
    4. 実行したステップの結果を評価する
    5. 評価結果に基づいて、必要に応じてステップを修正する
    6. 修正したステップを再度実行する
    7. 目標達成まで3~6の手順を繰り返す
  2. FEW-SHOT LEARNING
    • FEW-SHOT LEARNINGは、限られた量のデータから高い精度で学習するための機械学習の手法です。
    • 具体的な手順は以下の通りです。

    1. 限られた量のデータを入力として与える
    2. モデルは、このデータを元に、未知のデータを正確に分類するためのパターンを学習する
    3. 未知のデータが入力された場合、学習済みのモデルは正しい結果を出力する
  3. 思考連鎖推論
    • 思考連鎖推論は、ある知識や情報から、それに関連する別の知識や情報を連想して思考することで、新たな発見やアイデアを生み出す思考法です。
    • 具体的な手順は以下の通りです。

    1. ある情報や知識について考える
    2. その情報や知識に関連する別の情報や知識を思いつく
    3. 思いついた情報や知識についてさらに考え、それに関連する情報や知識を思いつく
    4. このプロセスを繰り返し、新たな発見やアイデアを生み出す
  4. 教師付きファインチューニング
    教師付きファインチューニングは、ある学習済みのモデルを、新たなタスクに適応させるための機械学習の手法です。
    • 具体的な手順は以下の通りです。

    1. 学習済みのモデルを用意する
    2. 新たなタスクに関連するデータを用意する
    3. 用意したデータを使って、学習済みのモデルを再学習する
    4. 再学習したモデルを、新たなタスクに適応させる
  5. RLHF(REINFORCEMENT LEARNING FROM HUMAN FEEDBACK)
    • RLHFは、人間からのフィードバックを受け取りながら、強化学習を行う手法です。
    • 具体的な手順は以下の通りです。

    1. モデルが行動を選択する
    2. 人間からフィードバックが与えられる
    3. モデルは、フィードバックを元に、より良い行動を選択するための方策を学習する
    4. 1~3の手順を繰り返し、より高い性能を持つモデルを構築する
  6. 文脈内学習(ICL)
    • 文脈内学習は、自然言語処理において、テキストの文脈を考慮しながら、単語や文の表現を学習する手法です。
    • 具体的な手順は以下の通りです。

    1. テキストを入力として与える
    2. 単語や文の表現を、その単語や文が現れる文脈に基づいて学習する
    3. 学習した表現を用いて、テキストに対するタスクを解決する
    4. 1~3の手順を繰り返し、より高い精度を持つモデルを構築する

わかったこと

・プロンプトの内容によって、回答の精度が大きく変化することがよくわかった。
・Garbage in Garbage outを意識して、正しいプロンプトを投げることが重要
・Prompt Engineering Guideをよく読もう!

まとめ

論文調べをやっていると論文をまとめて投稿することが目的になって、論文の内容があまり理解できていないような気がする。
難しくてわからない論文も多いが、そこから勉強を始めて後から読み返すようにしていきたいです。

0
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?