これはなに
ACLに参加したので、興味のある発表をいくつかまとめる
Main
Oral
MentalManip: A Dataset For Fine-grained Analysis of Mental Manipulation in Conversations
⭐️概要
- 人を操作して自分の意に沿わせる(manipulation)ような発話のデータセットを作成し、その検出タスクがLLMにとって難しいことを示した
- モチベーションとしては、カスタマーサービスで客がオペレーターを脅すみたいな時にそれを検知するようなシステムがあるといいよね、みたいな感じ
⚙️手法
- 2者間の対話4000件にmanipulationのラベルを付与し、データセット(MentalManip)を作成
- 発話がmanipulatingか否か、どういう手法のmanipulationなのか(techniques)、他人のどの弱みにつけこんでいるのか(vulnerability)の軸でアノテーションをする
- 複数ターンの対話を3人にアサインしてアノテーションし、多数決でラベルを決めたバージョンと、3人全員が合意したデータのみ残したバージョンの2つを用意した
🧪実験
- manipluatingか否かを答えさせる分類問題と、そのmanipulationの手法(techniques, vulnerability)を答えさせる分類問題をタスクとして用意
- LlamaとかGPT-4-turbo、RoBERTaとかを、zero-shot, few-shot, fine-tuningなどして解かせる
🍪結果
- non-manipulatingな対話は、サイズの小さいLLM(LLama2の7Bとか)を使うとほとんど全部manipulatingと予測された。一方で、より大きなモデルとしてGPT-4-turboを使っても、正答率は65%程度だった
- manipulationの手法がどれなのかを分類するタスクは、対話がmanipulativeか否かを判断するより難しい
Same Task, More Tokens: the Impact of Input Length on the Reasoning Performance of Large Language Models
⭐️概要
- 単純な推論タスクにおいて、入力トークンを多くすればするほど解答の精度が落ちる、またChain-of-Thought(CoT)を使っても性能低下は防げないと示した
⚙️手法
- FLenQAというデータセットを作成。タスクを解く際には、与えられた入力の中に入っている2つの事実(needleと呼ぶ)をうまく把握する必要がある。入力トークン数を可変にするため、それらの事実を全く関係のない文字列(常に真となるようなテキストとか)の中に紛れ込ませるみたいなことをやっている
🧪実験
- FLenQAの3つのタスクを使い、複数のLLMで評価を行った
🍪結果
- LLMの推論性能は、入力トークン数を多くすれば大幅に下がる。具体的に今回のデータセットでは、250トークンの時のaccuracyは0.9程度であったのが、500トークンで0.8、1000トークンで0.7、2000トークンで0.6というようにガッツリ下がっていった
- Chain-of-Thoughtを使っても、入力長による性能低下を防げない(入力長が長くなれば、まず解答を先に出し、その後で理由を述べるという出力になりがちであるため)。とはいえ、何もしないよりはCoTした方がマシ
- 入力トークン数を多くすると、Yes/Noの質問でNoと答えがちになるバイアスが働いた
💡備考
- (質疑応答にて)入力トークンの最大数を3000トークンにしたのは、この時点で性能の低下が顕著に見られたこと、またコストがかかることでこれ以上試す必要がないと判断したためだと話していた
Let's Go Real Talk: Spoken Dialogue Model for Face-to-Face Conversation
⭐️概要
- ユーザーの発話テキストだけでなく、表情(ビジュアル)や音声の情報も取り入れた対話システムを構築した
- モデルの訓練のために、大規模なマルチモーダル対話データセットを作成した
⚙️手法
- 対話データセットの多くが、発話テキストと音声から成っているが、この研究では340時間分の動画の対話データセットを作成した。8,733対話、187,859発話のデータセットは、他の対話データセットと比較してもかなり大きい
- 発話の音声とユーザーの画像を入力としてエンコードして、エージェントの発話と表情を出力としてデコードするend-to-endなモデルを訓練した(OPT-1.3Bをベースとしている)
🧪実験
- 既存のデータセット(Multidialog)の一部を入力し、他のモデルとの回答の比較をさまざまな評価軸で行う
- 他のモデルには、cascading(発話生成→音声に変換→顔の画像を作成)と、音声を処理できる既存の対話システム(SpeechGPTなど)を用いて、本研究で作成したモデルとの比較を行う
🍪結果
- この研究で作成したモデルが、回答の一貫性や多様性といった側面でのスコアが良かった。また、表情と音声の同期や、音声中のノイズへの堅牢性といった面でも他のモデルよりも秀でていた
- 対話エージェントを作成する上で、発話テキストと話者の様子を同時に処理することのメリットが示された
Poster
InCharacter: Evaluating Personality Fidelity in Role-Playing Agents through Psychological Interviews
⭐️概要
- あるキャラクターになりきる対話システムが、どれくらいそのキャラクターの設定に忠実であるかを評価する研究
- 従来手法ではしゃべり方や知識(設定)みたいな部分が重視されていたが、この研究ではキャラクターの思考や振る舞いにまで突っ込んだ分析を行なっている
⚙️手法
- キャラクターに対してインタビュー形式で質問をして、その回答を様々なpsychological scale(Big Fiveとか)を用いて評価し、キャラクターの忠実度を測定するスキームであるInCharacterを提案
- 先行研究では、例えば「xxに対して賛成or反対かを1~5のスケールで答えて?」みたいな点数自己申告スタイルで評価を行っていたが、それで得られた回答がキャラに忠実でないという欠点があった
- この研究では、質問に対するキャラの回答を第三者の立場であるエージェント(LLM)が評価する、という手法を提案している
- その中でも、質問に対する回答を1つ1つLLMがスコアをつけてその平均を取る手法と、回答を全部与えた上で総合的にスコアを出す方式の二種類を試し、結局後者の方が人間の判断と合致しているという結論に至っていた
🧪実験
- ChatGPTをベースにキャラクターAIを32種類作成し、それぞれのキャラクターに対してpsychological scaleの正解データを人手で作成(例えばこのキャラの16personalitiesは何なのかとか、Big Fiveの各項目のスコアがどんな感じになるのかとか)
- 評価用のエージェントとしてはChatGPT, GPT-4, Geminiを利用し、評価がどれだけ人間の判断と合致しているかと、評価ごとにどれだけブレがあるかをチェック
🍪結果
- インタビューしてスコアをつける方が、先行研究の自己申告スタイルよりも人間の評価基準に合致していた上、評価ごとのブレも少なかった
- ベースのLLMが大きくなればなるほど、評価のスコアが高くなり、キャラクターを忠実に再現できるようになったと言える(それは、そう)
- キャラクターの喋り方や知識よりかは、思考の内容や振る舞いの方がキャラクターの再現という意味では重要
💡備考
- メチャメチャ版権キャラの画像を使っていたが大丈夫そ?
Findings
The Impact of Reasoning Step Length on Large Language Models
⭐️概要
- CoTを多段にした時、推論の精度が上がることを示した
⚙️手法
- Zero-shotとFew-shotの場合で、CoTを何回も行うことでどの程度向上するかを確認する
🧪実験
- 8種類のQAデータセット(GSM8Kとか)で、CoTを挟んだ回数によるaccuracyの変動を観察
🍪結果
- おおむね4回程度CoTを挟むと精度が上がったが、別に回数を重ねれば重ねるほど精度がよくなるわけでもないし、むしろ下がるケースもある。どうなるかはタスクに依存している上、精度向上は数ポイント程度にとどまる
- few-shot CoTで与えるexampleの答えが間違っていたとしても、全体の精度にあまり影響を及ぼさない
- Zero-shotの場合でも、CoTを複数段挟むことで精度向上が認められた