LLMに聞くな、LLMに聞かせろ

Posted at 2026-04-03

先に結論だけ

LLMと人間の能力は非対称です。LLMは大量の情報の網羅的な整理が得意で、人間は文脈に基づく判断が得意です。この非対称性に沿ってタスクの形を設計すると、LLMの能力をより引き出せます。その一例が、LLMに質問者役を割り振るインタビューアーパターンです。

はじめに

LLMに質問して、期待した答えが返ってこない。そんな経験は多くの人にあるはずです。そのとき「プロンプトの書き方が悪かったのかもしれない」と考え、プロンプトを書き直すのは自然な反応です。

しかし、本当に改善すべきはプロンプトの書き方でしょうか。「どう聞くか」を工夫しても、そもそもLLMに答えさせるという構造自体が問題であれば、プロンプトの改善では限界があります。

この記事では、LLMと人間の能力の非対称性に着目し、「LLMに聞く」から「LLMに聞かせる」への役割配分の転換を提案します。

LLMと人間の非対称性

LLMと人間の能力は対称ではありません。それぞれに明確な得意領域があり、その違いを理解することが協働の設計の出発点になります。

LLMの得意領域

LLMは大量の情報を高速に処理し、網羅的に整理することに長けています。与えられた情報が十分にある状況では、その能力は超人的です。たとえば、手元のソースコードを全文検索して構造を把握し、変更の影響範囲を特定する作業は人間には到底追いつけない速度でこなします。公式ドキュメントとソースコードが公開されているOSSの機能把握も同様です。

この「広く・速く・漏れなく」という特性は、情報が手元に揃っている場合に発揮されます。LLMのI/Oスループットは人間と比べて桁違いに高く、同じ時間で処理できる情報量が根本的に異なります。

一方で、情報が不完全な状況ではLLMの強みが裏目に出ます。プロジェクト固有の制約を踏まえて技術選定を推薦するといった、自力で収集できない情報や条件に判断が依存するタスクは不得意です。LLMは学習の仕組み上、入力に対して何かを出力することが前提になっているため、「情報が足りないので回答しない」という判断が構造的に難しいです。2026年前半の最新モデルではこの傾向が急激に改善されつつありますが、構造的な難しさは変わりません。この性質がもっとも顕著に表れるのがハルシネーションです。

人間の得意領域

人間は状況を横断的に見渡し、文脈に応じた判断を下すことが得意です。「この場合はAよりBが適切だ」「今はこの観点を優先すべきだ」という判断は、人間が持つ暗黙の基準に基づいています。

ただし、この判断基準は本人の中に暗黙知として存在していることが多く、明示的に問われなければ言語化されません。「なぜそう判断したのか」と聞かれてはじめて、自分の基準を意識するという経験は珍しくないはずです。

一方で、人間のI/Oスループットは圧倒的に遅いです。LLMが数秒で読み取る情報を、人間は何時間もかけて読まなくてはなりません。出力に関してはVoiceモードの登場で緩和されつつありますが、それでもLLMとは桁違いの差があります。

非対称性が意味すること

この非対称性は、LLMと人間に同じ形のタスクを割り振ることが非効率であることを示しています。LLMが得意な「網羅的な情報処理」と、人間が得意な「文脈に基づく判断」は、性質が異なるタスクです。

「LLMに聞く」という使い方は、この非対称性に逆行しています。LLMの不得意な正確性に依存し、人間の不得意なI/Oスループットで検証する構造だからです。

この2つを組み合わせる自然な形は、逆にLLMに「網羅的に聞き出す」役割を、人間に「判断する」役割を割り振ることです。LLMが漏れなく質問を生成し、人間がその質問に対して判断を下す。この構造であれば、それぞれの強みが活きます。

「聞く」と「聞かせる」のタスク配分

非対称性を踏まえたとき、LLMとの協働には2つの方向があります。LLMに知識を問う「聞く」と、LLMに質問者役を任せる「聞かせる」です。

聞く: LLMに知識を問う

LLMに知識を問うアプローチは、LLMの知識の正確性に依存します。LLMは訓練データに基づいて回答を生成するため、回答の正確性は保証されません。

このアプローチの構造的な問題は、人間がLLMの出力を検証する負担が常に発生することです。LLMが生成した回答が正しいかどうかを判断するには、人間がその分野の知識を持っている必要があります。知識を持っているならLLMに聞く必要性が薄く、持っていないなら検証ができません。

聞かせる: LLMに質問者役を割り振る

発想を転換し、LLMに質問者役を任せます。LLMが質問を生成し、人間がその質問に答える形にすると、LLMの強みと人間の強みがかみ合います。

この構造では、LLMの網羅性は「聞き出す」方向に活用されます。LLMが生成する質問の正確性を検証する必要はありません。質問が的外れであれば、人間が「それは関係ない」と判断するだけです。一方、的を射た質問に対しては、人間は自分の判断基準を問われることで暗黙知を言語化する機会を得ます。

「聞かせる」の設計思想: 高負荷 vs 低負荷

「LLMに聞かせる」という原理は同じでも、その設計思想には幅があります。ここでは対照的なアプローチを、実際に公開されているClaude Codeのカスタムコマンドを例に紹介します。

interview: シンプルで強固な実装

interviewは、極めて単純な指示だけでLLMに質問者役を割り振るコマンドです。精緻な設計がなくても、LLMは優秀な聞き手として機能します。この事実は、「聞かせる」パターンの実装障壁が低いことを示しています。

grill-me: 質問の質で思考を強制する

grill-meは、LLMをインタビューアーとして設計し、ユーザーに深い思考を要求するアプローチです。1ターンに1つの質問を投げ、ユーザーが未決定の判断を言語化するまで掘り下げます。

このアプローチの特徴は、質問の質がユーザーの思考の深さを規定する点にあります。「なぜそう判断したのか」「他の選択肢を検討したか」といった質問は、ユーザーに対して自分の判断基準の再検討を促します。1問あたりの回答負荷は高いですが、その分だけ深い言語化が期待できます。

低負荷・高頻度: 回答負荷を最小化して質問数を稼ぐ

もう1つのアプローチは、回答の負荷を極力下げることで質問数を増やす設計です。1問あたりの思考の深さよりも、多くの判断ポイントをカバーすることを重視します。

筆者はこのアプローチを「アキネイター式」と呼んでいます。アキネイターがYes/Noの繰り返しでキャラクターを特定するように、LLMが選択肢を繰り返し提示し、ユーザーが選ぶだけで判断の全体像が浮かび上がる仕組みです。

三択で判断を分割する

人間が一度に比較・判断できる選択肢は筆者の経験的に三択程度が最適です。LLMはこの制約に合わせて、複雑な判断を三択の連続に分解します。「AとBとC、どれが近いですか」という質問を繰り返すことで、ユーザーは自由記述のような認知負荷をかけずに判断を表明できます。

タイピングを最小化する

ユーザーの操作は選択肢の番号を選ぶだけです。タイピングという人間のI/Oボトルネックを回避し、判断というI/Oボトルネックではない能力に集中させます。質問の傾向が脱線し始めた時だけ、Voiceモードを使って自由記述で軌道修正します。

選択の積み重ねで構造を浮かび上がらせる

個々の三択は単純ですが、LLMはその回答を蓄積しながら次の質問を生成します。回答が重なるにつれて、本人も明確に意識していなかった判断基準やプランの構造が言語化されていきます。直感的に判断させる以上、ユーザーは一定数の誤った選択を下します。しかし、回答数を積み重ねることで矛盾が表面化し、LLMが再質問で修正できます。個々の回答の正確さより、全体の収束を重視する設計です。

どちらが正しいかではなく

この2つは優劣の問題ではなく、設計思想の違いです。grill-meは深さを重視し、低負荷アプローチは広さを重視します。

重要なのは、どちらも「LLMに聞かせる」という同じ原理の上に立っていることです。LLMの網羅性を活用して人間の判断を引き出すという構造は共通しており、その構造の中でユーザーへの負荷配分をどう設計するかという選択が異なるだけです。

まとめ

LLMの網羅性を「答える」ではなく「聞き出す」方向に活かせば、人間の判断力とかみ合います。その実装には深さを重視するものも広さを重視するものもありますが、非対称性に沿った役割配分という原理は共通しています。

LLMとの協働を改善したいとき、まず変えるべきはプロンプトの書き方ではなく、タスクの形です。それぞれの得意領域に沿って役割を配分すれば、能力は自然にかみ合います。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up