LLMはなぜ長期タスクが苦手なのか？

Posted at 2025-11-18

― MAKER手法が示した「分解・多数決」による突破口

近年の大規模言語モデル（LLM）は驚くほど賢く、数行の指示で複雑な作業をこなせます。しかし、**数千ステップ以上の「長期タスク」**を任せると、急に破綻したり、話がズレたり、無限ループのような出力をしたりします。

本記事では、

なぜLLMは長期タスクが苦手なのか
その限界を改善しようとする「MAKER」という手法のアイデア
実験で何が示されたのか
現実のタスクにはどこまで応用できるのか

を、初学者向けにわかりやすく解説します。

1. LLMは「長い作業」が苦手って本当？

LLMは、ひとつの回答を生成するときに、毎回少しずつ誤差（ミス）を含んだ確率的な出力を行っています。
たとえば1ステップあたりの成功確率が 99% でも…

100ステップ → 0.99¹⁰⁰ ≒ 36%
1000ステップ → 0.99¹⁰⁰⁰ ≒ 0.004%

のように、長く続けるほど誤りが累積します。

さらに、LLMの誤りは完全には独立していません。
一度間違えると、それに引きずられて破綻したり、出力フォーマットが崩れたりします。

こうした理由で、LLMは「短いタスクには強いが、長いタスクに弱い」という性質を持ちます。

2. MAKERとは：タスクを細かく分けて多数決で正解を選ぶ

この問題を改善するために登場したのが MAKER という手法です。(下記論文)

MAKERのアイデアはシンプルで強力です。

✔ できるだけタスクを「超小さなステップ」に分解する

✔ 各ステップで複数の候補解をサンプリングする

✔ 多数決（投票）で最も正しい候補を選ぶ

この方法が何を意味するかというと…

大きな推論は失敗しやすい
小さな推論は成功率が高い
小さな推論＋多数決 ⇒ エラーの確率を指数的に下げられる

という特性を利用しているわけです。

3. 投票がなぜ効くのか

MAKERでは、サブタスク数を s としたとき、
必要な投票数はおよそ log(s) でよい
という点が示されています。

これは非常に重要です。

例えば、

ステップ数が 1,000
log(1000) ≒ 10

つまり 10票ほどの多数決で全体精度を十分に底上げできることになります。

「小さなタスク」を「強化された精度」で積み上げることで、
最終的に非常に長いタスクの成功率を大きく改善できます。

4. LLMが「おかしくなる」とき：相関誤りへの対処

LLMを長時間走らせていると、

出力が急に長くなる
フォーマットが崩れる
無限ループのような記述になる

といった「内部が壊れた状態」が現れることがあります。

MAKERでは、そうした異常な出力は破棄して再サンプルすることで、
「特定ステップだけ異常に失敗する」という相関誤りを減らせることが示されています。

これはLLMの“ノイズ除去”として有効な工夫です。

5. 小さなモデルでも良い、という発見

面白いことに、MAKERの各サブステップでは
大規模モデルを使う必要はない
ことも示されました。

つまり、

タスク全体の計画（分解）には大きなモデル
小さなステップの実行には小さなモデル

のような“ハイブリッド構成”が可能になります。

6. 実験結果：100万ステップを誤りゼロで達成

研究では非常に有名なタスク 「ハノイの塔（20枚）」 を用いて検証しました。
この問題の解はおよそ 100万ステップにもなります。

通常のLLMでは到底到達不可能ですが、
MAKERを利用すると

100万ステップの実行を誤りゼロで行うことに成功した

と報告されています。

投票はシンプルに
「先に3票差がついたら採用」
という実装でした。

7. とはいえ、現実の長期タスクには“そのまま使えない”

ここまで読むと「実世界の長期タスクも解けるのでは？」と思うかもしれませんが、研究チーム自身が以下の限界を指摘しています。

(1) 誤りが独立しているという“理想的な仮定”

実際のLLMの誤りは独立ではありません。
特定のパターンで連続して失敗する「相関誤り」が存在します。

MAKERの投票理論は「ミスが独立して起きる」ことを前提にしているため、
現実のタスクでは精度を増幅しにくい場合があります。

(2) ハノイの塔は「極端に得意なタスク」

ハノイの塔は以下の特徴を持ちます：

状態遷移が単純
問題分解が明確
ストラテジー（戦略）がほぼ固定

つまり、LLMが複雑に思考したり計画したりする必要がありません。

＝今回の手法と相性が良すぎた問題設定

現実的な長期タスク（コード生成、RAG、作文、探索など）では

タスクの分解
動的な戦略変更
が必要であり、MAKERの前提とは大きく異なります。

(3) 投票するには「1回の成功率が50%を超える必要」がある

これは機械学習の「弱学習器」の仮定に近いものです。
しかし…

多くの実タスクでは成功率が50%を超えない
サンプル間の相関が高く、多様性も作りにくい
新しい視点の候補を生成するのが難しい

ため、精度増幅がうまく働かない可能性があります。

8. まとめ：実世界の万能解ではないが、重要な方向性を示した研究

今回のMAKER研究は、
LLMの長期タスク問題を“タスク分解＋多数決”で解決しようとする初めての大規模な試み
という点で非常に価値があります。

結論をまとめると：

✔ タスクを最小ステップに分解すると成功率が上がる

✔ 投票で誤りを指数的に減らせる

✔ 小さなモデルでもステップ実行は可能

✔ 100万ステップでも誤りゼロが可能

という“希望”を示しました。

ただし同時に、

✗ 一般的な長期タスクにそのまま適用は難しい

✗ 誤りの相関、タスク分割、戦略変更などは未解決

✗ 投票が効くには単発の成功率が高く独立している必要がある

といった制約も残っています。

9. 最後に：この研究の価値とは？

この研究は「LLMの限界は思考力そのものではなく、実行精度の問題である」という視点を提示しました。

つまり、

小さく分ける・多数決する・異常値を除去する

という“安定化の工夫”だけでも、
LLMの長期タスク性能を大きく改善できる可能性があります。

これは多くのアプリケーション――

コード生成
長期プランニング
逐次的な操作の制御
数学問題
自律エージェント

にとって非常に重要な示唆です。

今後、現実のタスクにも応用可能な「タスク分解」「戦略生成」「精度増幅」が組み合わされれば、
人間に匹敵する“長期思考能力”をもつLLMエージェントが誕生するかもしれません。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up