【一言で言うと】
「話者本人のペルソナ」、「性格特性」、「話者間の自由対話」を収集して構築されたRealPersonaChat(RPC)コーパスは、 既存のコーパス(JPersonaChat;JPC)よりも自然(ペルソナの情報を過剰に含まない)で、質(対話満足度)が高いことを明らかにした。
【タイトル/URL】
RealPersonaChat: 話者本人のペルソナと性格特性を含んだ雑談対話コーパス
https://www.anlp.jp/proceedings/annual_meeting/2024/pdf_dir/B10-4.pdf
RealPersonaChat
https://github.com/nu-dialogue/real-persona-chat
【まとめ】
1.RPCコーパスの構築
- 話者の募集→事前アンケートの実施→対話の収集→事後アンケートの実施
2.RPCコーパスの基本統計(表1)
3.RPC vs JPC
- 名詞、内容語のペルソナ出現率がJPCで有意に高い(JPCは過剰にペルソナの情報を含んでいる?)
- 60名による第三者主観評価では、RPCの対話満足度がJPCよりも有意に高かった
- 対話とペルソナの関連度はJPCで有意に高かった(JPCがペルソナの使用で偏った分布を持つ?)
4.性格特性スコアの相関係数
- 対話から性格特性が認識可能か?→ RPCでは、対話から話者の性格特性を認識することは難しく、話者本人が自覚する性格と第三者が認識できる性格に差がある
【感想】
RPCには様々なペルソナを持つ会話データがあるので、これを利用することで多種多様なキャラクターを持つ患者さんを擬似的に生成することができるかも。