0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

「インコンテキスト学習は重み更新してない」は本当か?

Posted at

イントロダクション:プロンプトだけで学ぶ魔法

近年の大規模言語モデル(LLM)を使っていて、こんなことを感じたことはないでしょうか?

「例文をプロンプトとして与えるだけで、なぜかモデルが“学習したように”正しく応答する」

たとえば、以下のようなプロンプトです:

Q: 東京はどこの国にありますか? A: 日本  
Q: パリはどこの国にありますか? A: フランス  
Q: バンコクはどこの国にありますか? A:

これだけで、モデルは「タイ」と出してくれます。すごいですよね。

このように重みを変えることなく、タスクに適応する現象は「インコンテキスト学習(ICL)」と呼ばれています。


ICLは“何もしない”のか?

ICLがすごいのはわかります。でも不思議なのは、

なぜ、モデルは“学習”していないのに、タスクに対応できるのか?

これまでICLの動作原理については、「Attentionだけで適応しているのでは?」という見方が多く、シンプルな線形モデルでの解析も行われてきました。

しかし――
本当に重みは何も変わっていないのでしょうか?
ある研究が、この疑問に鋭く切り込みました。


ICLの真の姿:「ランク1の重み更新」としての理解

今回ご紹介する論文の主張は非常に明快です:

インコンテキスト学習は、モデルのMLP層の重みに対する「ランク1更新」と等価な操作として理解できる

つまり、プロンプトを追加することで、

  • 実際には重みを変えていないにもかかわらず、
  • あたかも“重みをほんの少し変えた”ような振る舞いをしている
    ということです。

しかもその「変化」は非常に単純で、**ランク1の更新(最小限の調整)**だけで説明できます。


ランク1更新とは?

数式に詳しくない方のために説明します。

ランク1の更新とは:

  • 行列の重みを変化させるときに、
  • 1つのベクトルの方向にしか変化を加えない非常に制限された調整です。

これは、通常の重み更新(数百万のパラメータを全部調整)と比べて、

  • 非常に効率的で
  • ごく一部の情報だけで学習するようなもの

少しだけ数式:モデル内部で何が起きているのか?

この研究では、以下のような構造を考えます:

  • C:プロンプト(複数の例)
  • x:予測対象の入力
  • A(C, x):Cとxから得られる特徴ベクトル
  • W:MLPの重み(学習済み)

モデルの出力は次のようになります:

T_W(C, x) = f(W * A(C, x) + b)

ここで、プロンプトCの一部Yによって、次のような仮想的な重み更新が成り立ちます:

T_W(C, x) = T_{W + ΔW(Y)}(C \ Y, x)

ΔW(Y)はこう表されます:

ΔW(Y) = (u * vᵗ) / ||A(C \ Y, x)||²

これが、uとvの外積で表されるランク1行列です。
つまり、たった1方向の調整でICLの効果が再現されるということです。


実験結果:本当にランク1だけで十分なの?

この理論を、実際のモデル(Transformer、RNN、SSM)で検証すると:

  • 実際にICL中の出力挙動は、このランク1更新によってほぼ完全に説明できる
  • 特に、1トークンずつプロンプトを増やしていくと、その都度ランク1の更新が加えられているかのような振る舞いが確認できた

驚くべき結論:ICLは制限された更新空間内で“学習”している

この研究が示したのは:

  • モデルは事前学習の段階で、ランク1更新だけでタスクに適応する方法を身につけている
  • 実際のICL中にも、あたかもメタ学習のようなプロセスが発生している
  • そのため、パラメータを固定したままでも新しいタスクに柔軟に対応できる

そしてこのことは、以下のような重要な示唆を与えてくれます:

  • なぜICLは堅牢なのか?
  • なぜ微調整(SFT)よりも時に安定しているのか?
  • なぜプロンプトだけで多様なタスクに対応できるのか?

答えは、モデルが“ランク1だけで学習する”ことを前提に設計されているからなのです。


まとめ:ICLの本質に迫る一歩

この研究は、ICLの振る舞いを**「ランク1更新の累積」として理論的に捉える新しい視点**を提供してくれました。

観点 内容
ICLの見方 重み更新なし → 実はランク1更新として解釈可能
モデルの適応 重みを変えずに“暗黙の微調整”を実行している
数学的枠組み MLP層の重みがランク1で変化しているとみなせる
検証結果 実モデルでもこの仮説は確認されている
応用 ICLの理解、プロンプト設計、軽量モデル訓練に貢献

おまけ:この論文のすごさ

この論文が与える一番の衝撃は、

ICLは“明示的に学習していない”わけではない。見えないところで、最小限の学習をしていた。

ということを、理論と実験の両面から証明してしまった点です。

「プロンプトで動く=ノーラーニング」ではなく、
「プロンプトで動く=ランク1更新でメタラーニング」だった。

これを知ってしまった今、私たちがプロンプトを書くときの目線も、少し変わってくるかもしれません。

LLM・ICL研究に興味がある方は、論文リンクや関連研究もぜひチェックしてみてください!

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?