松尾岩澤研究室「大規模言語モデル講座 基礎」の第2回目に参加しました。
今回のテーマは 「推論(Prompting, In-Context Learning)」。
講義では、Decoding手法の基礎から、推論の精度を左右するプロンプト設計、そして In-context Learning(ICL)の実践的な使い方、モデル選定の考え方まで幅広く取り上げられました。
印象に残ったポイント
Decoding手法について
これまで何となく使っていた Temperature ですが、Temperatureが Top-p Sampling と掛け合わされたときの挙動を、可視化を通して理解することが出来ました。
また、タスクの内容によって最適なDecoding手法が異なるということも学びました。
講義では GPT-2時代から既に現在の推論モデルの萌芽が見られた という話もあり、モデルがどのように進化してきたのかを知ることが出来ました。
プロンプティングと「Let’s think step by step」
プロンプティングでは、ゼロショットでも “Let’s think step by step” を加えることで性能が向上するという、思考誘導(Chain-of-Thought, CoT) の効果が紹介されました。
関連論文メモ
今回の講義でも多数の論文が紹介されましたが、その中でも以下のサーベイ論文は実務でも参考になりそうだと感じました。
NotebookLMを使って整理した内容を共有します。
A Survey on LLM-as-a-Judge
タイトル:A Survey on LLM-as-a-Judge
概要
「LLM-as-a-Judge(LLMによる評価)」に関する包括的なサーベイ論文です。
Abstractには “This survey serves as a foundational reference for researchers and practitioners in this rapidly evolving field.” と記載されており、その言葉どおり、体系的で非常に網羅的な内容になっています。
また、GitHubレポジトリも併設されており、引用論文や関連資料へのリンクがまとめられています。
注目点
第3章の “Improvement Strategy” では、LLM-as-a-Judgeの信頼性を高めるための手法 が整理されており、第5章 “Meta-evaluation Experiment” では、その検証結果が以下のようにまとめられていました。
・LLM固有の能力やリスクにより、一般的な改善戦略だけでは評価性能の向上やバイアス軽減に十分ではない。
・効果的な戦略として、強力なLLMを選択すること、評価コンテンツの順序をランダム化(シャッフル)すること、複数ラウンドの評価を多数決で決定すること が挙げられ、これらによりバイアスを軽減できると示された。
・一方で、人間評価との整合性の向上にはさらなる研究が必要 とされている。
感想
信頼性向上の手法は理論的に有効である一方、実務ではコスト面とのトレードオフも大きく、現場での採用には工夫が必要だと感じました。
まとめ
今回の講義では、推論やプロンプティングの基本を再整理しつつ、
「LLMが自らを評価し、改善する時代」が近づいていることを実感しました。
プロンプトや評価の設計が、単なる技術要素ではなく「モデルの知的成長」を支える基盤になりつつあります。
今後の講義でも、こうした Reflection × Evaluation × Prompting の連携がどのように発展していくのか、引き続き注目していきたいと思います。