AI・機械学習関連論文Advent Calendar 2024

論文紹介: From Medprompt to o1: Exploration of Run-Time Strategies for Medical Challenge Problems and Beyond

Last updated at 2024-12-07Posted at 2024-12-07

はじめに

今回は、Harsha Nori らによる「From Medprompt to o1: Exploration of Run-Time Strategies for Medical Challenge Problems and Beyond」という論文を紹介します。本論文は、大規模言語モデル (LLM) の推論時戦略を医療分野における課題解決に適用し、特に OpenAI の最新モデル o1-preview の性能を分析しています。医療分野の論文ではありますが，内容については o1-preview の性能評価や Chain of Thought のようなプロンプトエンジニアリングの否定ともみえる結果が示されていてなかなか興味深い内容となっています。

参考文献:
H. Nori, N. Usuyama, N. King, S. M. McKinney, X. Fernandes, S. Zhang, E. Horvitz. "From Medprompt to o1: Exploration of Run-Time Strategies for Medical Challenge Problems and Beyond". arXiv:2411.03590v1, 2024.

🐣 世の中はすでに o1-preview から o1 や o1 pro の時代に突入していますが…

1 論文の概要

この論文では、LLM の実行時戦略とその有効性に関して、特に医療分野のチャレンジ問題での性能を中心に検討しています。従来の LLM では、Medprompt のような高度なプロンプトエンジニアリングを用いることで専門分野での性能を向上させてきましたが、o1-preview は最初から推論機能を内在化した新しいモデルとして注目されています。
主な分析ポイントは以下の通りです：

o1-preview は、プロンプトエンジニアリングがなくても GPT-4 に Medprompt を適用した場合を上回る性能を示しました
few-shot プロンプティングは o1-preview の性能を低下させる場合があり、推論ネイティブモデルに対する従来の文脈学習手法の有効性に疑問を投げかけています
アンサンブル手法は引き続き有効ですが、コストと性能のバランスを慎重に最適化する必要があります

費用対効果の観点からは GPT-4o がより手頃な選択肢となる一方、o1-preview は高コストながら最高水準の性能を達成することが明らかになりました。また、o1-preview は既存の医療ベンチマークでほぼ飽和状態に達しており、より挑戦的な新しいベンチマークの必要性も示唆されています。
これらの知見は、LLM の推論能力を活用する新しいパラダイムの出現と、プロンプトエンジニアリングの役割の変化を示唆しています。

論文中の使用 GPT モデル

o1-preview:
- 2024 年 9 月リリース
- 推論を内在化した新世代モデル
- 入力トークン: $15/1m、推論・出力トークン: $60/1M
GPT-4o:
- 2024 年 8 月リリース
- GPT-4 シリーズの最新版
- 入力トークン: $2.5/1M、出力トークン: $10/1M
GPT-4-Turbo:
- 2023 年 11 月リリース
- 入力トークン: $10/1M、出力トークン: $30/1M
GPT-4:
- 2023 年初期リリース版

補足: o1 正式リリース

ChatGPT の次世代モデル「o1」の正式リリースおよびさらなる高性能モデル「o1 pro」が 2024/12/5 に発表されています。
OpenAI Adds $200 Monthly ChatGPT Pro Subscription With New Model

2 関連研究

医療分野における LLM の活用は急速に進展しています。初期のアプローチでは、専門分野に特化した事前学習が重要視されていました。PubMedBERT、BioGPT、BioMedLM などのモデルは、PubMed コーパスや UMLS 知識グラフを用いた自己教師あり学習により、比較的小規模ながら生医学 NLP タスクで優れた性能を示しました。

しかし、最新の大規模汎用モデルは、専門的な事前学習なしでも優れた性能を発揮することが明らかになってきました。例えば ChatGPT-3.5 は特別な訓練なしで米国医師免許試験（USMLE）に合格し、GPT-4 は単純な five-shot プロンプティングで合格点を 20 点以上上回りました。この能力は英語以外の医療試験でも確認されています。

この流れを受けて、Medprompt は汎用モデルの推論能力をさらに引き出す戦略として提案されました。特に、GPT-4 が few-shot 例に対して自身で Chain-of-Thought (CoT) 推論を生成する場合に性能が向上することが示されました。これにより MedQA で 90.2% のスコアを達成し、他の医療ベンチマークでも高い性能を示しています。

この内容は論文の "2 Background" のセクション、特に "2.1 Leveraging LLMs for medical challenge problems" と "2.2 Medprompt: Steering generalist models for specialized domains" に対応しています。深堀りして記述します：

o1-preview

o1-preview は、次世代の言語モデルとして重要な技術的革新を示しています。強化学習を用いて「思考してから応答する」よう訓練されており、特に以下の特徴を持ちます：

推論プロセスが訓練時に内在化されており、実行時に明示的なプロンプト指示が不要
課題の複雑さに応じて、実行時の計算リソースを動的に調整可能
内部での推論トークン生成により、より深い思考プロセスを実現

Medprompt

Medprompt は、GPT-4 のような汎用モデルを医療など専門分野で最大限活用するための包括的なフレームワークです。主要な構成要素は以下の通りです：

動的 Few-shot ショットプロンプト
- テキスト埋め込みモデルを使用して、クエリと例を共有意味空間に変換
- データベースから問題に最も関連性の高い例を動的に検索
- 実行時のコンテキストウィンドウを効率的に活用
Chain-of-Thought 推論
- 複雑な医療クエリを小さな増分ステップに分解
- GPT-4 を使用して候補プール内の各問題の説明を生成
- 人間の専門家が作成した説明よりも詳細で効果的な説明を実現
アンサンブル技術
- 同じ質問に対する複数の独立した推論経路を生成
- 多数決による最終出力の決定
- 選択肢の順序をランダム化して位置バイアスを軽減
- 複数の推論経路を統合することで、より堅牢な回答を実現

従来研究ではこれらの技術を併用することで、Medprompt は医療 QA タスクでのエラー率を約 50% 削減し、医療ドメインへの特別な適応なしで複雑な医療ベンチマークでの性能を大幅に向上させることに成功しました。

3 実験セットアップ

医療ベンチマーク上での o1-preview の性能を評価し、Medprompt を含む最新のモデルと比較します。評価は医学的知識と推論能力の両面から行い、特に患者症例に関するシナリオに注目しました。

主な評価対象は以下のベンチマークです：

MedQA [JPO+21]
MedMCQA (Dev set) [PUS22]
MMLU (医療サブセット) [HBB+20]
NCLEX（看護師免許試験）[NLZ+23b]
JMLE-2024（新規ベンチマーク）

公平な比較のため、すべての実験は Medprompt の先行研究 [NLZ+23b] で示された設定に従って実施しました。

4 実験結果

4.1 メインの実験結果

o1-preview はベンチマーク全般で優れた性能を示し、多くのタスクでベースラインの GPT-4 を上回りました。特筆すべき点として、o1-preview は単純な 0-shot プロンプトでも、Medprompt のような高度な戦略を用いた GPT-4 を上回る結果となりました。

ただし、o1-preview は常に GPT-4 を上回るわけではありません。例えば MMLU 臨床知識では、Medprompt を適用した GPT-4 の方が良い結果を示しました。OpenAI の報告でも、o1-preview の有効性はタスクの設定に依存することが指摘されています。

これらの結果は、o1 モデルではプロンプトエンジニアリングの必要性が低下している一方で、従来の GPT-4 では専門タスクでの高性能を達成するためにプロンプトエンジニアリングが依然として有用であることを示唆しています。

補足: プロンプトエンジニアリングは不要になったのか？

実験結果から、高度なプロンプトエンジニアリングが悪影響を及ぼすこともある点が指摘されていますが、だからといってプロンプトエンジニアリングの必要性が完全になくなったと結論付けるのは時期尚早です。以下の点を考慮する必要があると考えます：

モデルの内部メカニズム
- o1-preview の内部推論プロセスは公開されていない
- モデルの推論内容の理解が限定的
- 最適な活用方法の探求はまだ初期段階
実験結果の解釈
- CoT プロンプトが性能低下を招く現象は、内部推論メカニズムとの競合が原因と推測される
- より適切なプロンプト設計により、内部推論プロセスを補強できる可能性がある
- タスクの性質によっては従来型のプロンプト技術が依然として有効
今後の展望
- モデルの内部推論メカニズムの理解が深まれば、それに適応した新しいプロンプト技術が発展する可能性
- プロンプトエンジニアリングは不要ではなく、より洗練された形で進化していく可能性が高い

🐣 できる人につまらない指示をするとヤル気を削いでしまうあるある。「宿題やりなさい！」って言っちゃやっぱりだめなんですねw

5 数値実験と結果

MedQA および関連医療ベンチマークでの主な結果を示します：

ベンチマーク性能

MedQA (US 4-option)
- o1-preview (0-shot): 96.0%
- GPT-4o (0-shot): 84.4%
- GPT-4-Turbo (Medprompt): 90.2%
- GPT-4-Turbo (5-shot): 81.4%
MMLU Clinical Knowledge
- o1-preview (0-shot): 93.6%
- GPT-4o (Medprompt): 95.8%
- GPT-4-Turbo (5-shot): 86.4%

コストと性能のトレードオフ

性能向上のために必要なコスト
- GPT-4o (Few-shot prompting): 精度 88% (約 $5)
- GPT-4o (Medprompt 使用): 精度 92% (約 $50)
- o1-preview (5x Ensemble): 精度 96% (約 $500)
GPT-4o: コスト効率に優れる (入力トークンあたり $2.5)
o1-preview: 最高性能だが高コスト (入力トークンあたり $15、推論・出力トークンあたり $60)

補足: コスト評価における留意点

コストの比較は OpenAI の料金設定に基づく指標であり、モデルの本質的な計算効率を反映していない可能性があります
o1-preview における内部的に推論トークンの相対的な増加量は示されているものの、各モデル間での定量的なトークン消費量の比較データは提供されていません
従って、コストに基づく比較は実用的な観点からの参考値として捉えるべきだと考えられます

補足: o1-preview で用いられた強化学習とは？

この論文で一番興味があるのは o1-preview で用いられた強化学習の詳細です。残念ながら論文の記述を確認すると、一番知りたいここの詳細については限定的な情報しか提供されていませんでした。

o1-preview に関する主要な記述（Introduction より）：

According to [Ope24d], the o1 preview model is trained using reinforcement learning to "think" before generating final responses.
推論に関する記述（4.4 Role and Performance of Reasoning Tokens より）：

モデルの出力は 3 つのコンポーネントに分解されます：
- input tokens（初期プロンプトで使用されるトークン）
- reasoning tokens（中間的な推論ステップで生成されるトークン）
- output tokens（最終的な応答に対応するトークン）

OpenAI の公式情報への参照：

詳細な訓練方法は OpenAI の o1 system card [Ope24d] に記載されているとしています
しかし、内部の推論プロセスは非公開（hidden）であることも明記されています

引用: [Ope24d] OpenAI. Openai o1 system card. https://cdn.openai.com/o1-system-card-20240917.pdf, September 2024. Accessed: 2024-10-20.

ここは企業秘密ということなのでしょうね。

6 まとめ

本論文は、o1-preview が既存のプロンプトエンジアリングに依存せず高性能を発揮できることを示しています。一方で、プロンプトやアンサンブル戦略は従来モデルで依然として有用であり、o1-preview の完全な優越を示しているというわけではありませんでした。

おわりに

私が LLM を始めたころは CoT や In-Context Learning が性能向上の秘策のように推されていましたが、却ってそれが弊害になってしまうモデルが登場するとはこの分野の進化の早さには驚くばかりです。一方で、この結果は LLM 単体の性能向上はすでに頭打ちであるというちょっと穿った見方ができるかもしれませんね。ではまた次の記事でお会いしましょう。

🐣 o1 pro も早速触ってみたいと思います！

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up