狭い用途ですが込み入った課題を解決するLLMを3つ紹介します。
1. 心電図画像を理解するためのマルチモーダルLLM
2. AIフィードバックによる長文向けLLMの改善
3. 社会的な関係性を推論するLLM「SocialGPT」
心電図画像を理解するためのマルチモーダルLLM
Teach Multimodal LLMs to Comprehend Electrocardiographic Images
ECG (心電図, ElectroCardioGram) を解釈する「Pulse」という名前のLLMが、オハイオ大学とカーネギーメロン大学のチームによって発表されました。
心電図をこのように説明します。
この研究は現実的な状況に対応できるようにデザインされているのが特徴的でした。学習データは、電子データ、紙に印刷された心電図画像、さらにはくしゃくしゃの紙の心電図画像に基づいています。
精度は 82.4% で、GPT-4oのようなオープンソースのモデルが 50% なので約 30% ほど高く、このタスクに特化したモデルよりも約15%高いようです。
AIフィードバックによる長文向けLLMの改善
LongReward: Improving Long-context Large Language Models with AI Feedback
近年のLLMは文脈も十分に理解できますが、中々解決できていない課題があるようです。それは、長文における文脈理解は報酬を設計するためのアノテーションが難しいため、QAペアはLLM自身が自動的に合成することが多ため、ハルシネーションを引き起こしやすいということです。
そこで、この研究では、信頼性の高い長文の文脈理解の報酬モデルを作成することでこの課題を解決できると考えました。そして、有用性、論理性、忠実性、完全性という4つの人間指向の次元に基づくモデル回答に対して報酬を提供する「LongReward」という方法を考案しました。
この方法によってモデルの長文だけでなく短いコンテキストの解釈の性能を大幅に向上させました。
※これはDPO(Direct Preference Optimization)という技術の実験になります。DPOについて解説している記事を参考に載せました。
社会的な関係性を推論するLLM「SocialGPT」
SocialGPT: Prompting LLMs for Social Relation Reasoning via Greedy Segment Optimization
画像から友人や同僚、配偶者などの間の社会的な関係を精度よく推測する方法が発表されました。
これまでは単純な画像と回答のペアだけでトレーニングすると解釈に限界がありました。そこで、これを解決するために、Vision Foundation Model (VFM) の認識能力とLLMの推論能力を備えたモジュールを使用しました。簡単に言えば、画像から読み取れるストーリーをテキスト情報として出力することを間に挟んでいます。
スコアはこれまでの方法とそれほど大きな差はありませんが精度が約 67% あるようです。
参考
各arXiv論文はこちらです。
- Teach Multimodal LLMs to Comprehend Electrocardiographic Images
- LongReward: Improving Long-context Large Language Models with AI Feedback
- SocialGPT: Prompting LLMs for Social Relation Reasoning via Greedy Segment Optimization
その他
DPOの詳しい解説記事