AIは難関試験に受かるのに、なぜ平気で嘘をつくのか?
「ChatGPTが難関試験に合格するレベルの知能を得た」という話題が出る一方で、
「AIは平気で嘘をつく(ハルシネーション)」という共通感覚も、すでに広く浸透しています。
たとえば、OpenAIのGPT-4 Technical Reportでは、模擬司法試験(Uniform Bar Exam)について次のように述べています。
"passing a simulated bar exam with a score around the top 10% of test takers."
また、日本の医師国家試験(第118回)を全400問解かせた研究でも、ChatGPT-4oの正答率が90%を超える、という報告があります。
"Overall 373/400 (93.2)"
一方で、「90th percentile(上位10%)」のような“試験の強さ”は、推計方法次第で見え方が変わる、という指摘もあります(同じ司法試験の主張を再評価した論文)。
"GPT-4’s performance is estimated to drop to ∼48th percentile overall"
そしてハルシネーションについて、OpenAIは次のように定義・説明しています。
"instances where a model confidently generates an answer that isn’t true."
"standard training and evaluation procedures reward guessing over acknowledging uncertainty."
つまり、LLMは「真実を参照して答える機械」というより、
与えられた文脈から“もっともらしい出力”を生成する機械であり、評価のされ方によっては「わからない時でも当てにいく」ほうが有利になり得ます。
ここで重要なのは、この性質が 利用者の入力(プロンプト)の品質に敏感に反応することです。
ゴール・背景・制約・期待する成果物が不明瞭だと、AIは推測で埋めにいき、当たる確率が下がります。
その結果として「壁打ちが増える」「修正が増える」「AI疲れになる」。
だからこそ、プロンプトエンジニアリングという名のTIPSが“バイブル”化しているのだと思います。
では、なぜ人は無意識に“雑な依頼”をAIに投げてしまうのでしょうか。
私はそこに、AIとの向き合い方──つまり 心構え のヒントがあると思っています。
私の結論はシンプルです。
AIを“便利なツール”として扱うのではなく、
超優秀でスピードが速いのに、文句を言わない同僚(アシスタント/パートナー)として扱う。
この心構えがあるだけで、プロンプト術の多くは自然に身につきます。
この記事は、その理由と、明日から使える具体例をまとめます。
この記事で伝えたいこと(結論)
- 雑な指示は、人間相手ならトラブルの元。AI相手でも同じ
- AIは「意図を理解して完璧に補完する魔法」ではなく、文脈から“もっともらしい”答えを出す
- だから、同僚に依頼するのと同じ粒度で、背景・ゴール・制約・期待する出力を渡すと成果が安定する
- 副産物として、あなた自身の仕事が 具体化・言語化 され、作業品質も上がる
この記事の立ち位置(先に誤解を潰す)
この記事は「プロンプト技法のまとめ」ではありません。
AIを“同僚”として扱うという心構えを持つだけで、結果としてプロンプトの質が上がり、壁打ち疲れが減る——その話です。
もちろん、この心構えを突き詰めるとプロンプトエンジニアリング的な型に自然と行き着きます。
ただ、本記事では「型の暗記」よりも前にある 姿勢(依頼の出し方の基準) を扱います。
私がAIを「人間と同等に扱うべき」だと思う理由
私の中でAIはこういう存在です。
- 超優秀で、作業速度が高速
- 指示されたことだけでなく、影響範囲まで確認してくれる(ように振る舞える)
- しかし、曖昧な指示を勝手に正しく解釈できるわけではない
- そして何より、絶対に文句を言わない(=雑に扱っても止めてくれない)
ここが重要です。
人間の部下に「いい感じにやって」と丸投げしたら、普通は質問が返ってきます。
でもAIは、質問が返ってこないままアウトプットが出ます。
その結果、こうなります。
- 「AIは仕様を守らない」
- 「何度も壁打ちして疲れる」
- 「最後は結局、人間が全部直す」
AIが悪いというより、人間側が“依頼の前提”を省略しすぎていることが多いです。
雑プロンプトは、同僚に投げたら炎上する
イメージしてください。
あなたはChatGPTなどに、こんな指示を出したことがないでしょうか?
- 「いい感じにやって」
- 「適当に直して」
- 「ざっくりまとめて」
- 「とりあえずバグ直して」
- 「よしなに最適化して」
- 「プロっぽくして」
- 「それっぽい設計にして」
- 「なんかエラー出る。直して」
- 「この文章を読みやすくして」
- 「〇〇の案を10個出して(前提なし)」
では、これを自分が上司から言われたらどうでしょうか。
あなたは、困惑します。
建設的に進めるために、背景・目的・制約・期待値を確認するはずです。
しかし上司が「いいから、いい感じにやっておいて」と丸投げしてきたとしましょう。
あなたなりに調べ、検討し、成果物を作って提出した結果、
返ってきた評価が「これじゃないんだよなぁ。そんなこともできない?」だったら――怒りを覚えると思います。
あなたは、同じことをAIに対してやってしまっている可能性があります。
AIが「もっともらしい答え」を返すのは正常な挙動
LLMは、会話の文脈から「次に来そうな言葉」を確率的に選んで文章を生成します。
つまり、与えられた情報が曖昧なら、推測で埋めるのが自然な動きです。
- 推測がたまたま当たると「天才」に見える
- 推測が外れると「仕様を守らない」「嘘をつく」に見える
ここで大事なのは、AIを擬人化して盲信することではありません。
“同僚に依頼する時と同じくらい、誤解の余地を減らす” のが合理的、という話です。
付記:人は「間違っていても採用してしまう」——だから検証が前提になる
ここは精神論ではなく、実験でも確認されている現象です。
訓練を受けた病理医(n=28)の実験で、誤ったAI助言によって「元は正しい評価」が覆るケースが7% 観測された、という報告があります。
"it also resulted in a 7% automation bias rate, where initially correct evaluations were overturned by erroneous AI advice."
ChatGPTの助言が、道徳判断などの意思決定に影響する、という研究もあります。
"people’s moral decision-making is influenced by ChatGPT across three perspectives, as evidenced by two studies (total n= 1925)."
言い換えると、「AIは間違える」と頭で理解していても、
忙しさや“それっぽさ”に押されて 採用してしまうのが人間です。
だからこそ、AIを同僚扱いするなら、同僚に対してやるのと同じく「検証」を工程に含める必要があります。
(記事末尾にコピペ用テンプレを載せています)
心構えだけで、プロンプトエンジニアリングの大半に自然と到達する
プロンプトエンジニアリングのTIPSは確かに有効です。
ただ、私の感覚では、これを暗記する前に「同僚に頼む」発想に切り替えるのが近道です。
同僚に依頼するなら、自然とこうしますよね。
- 背景を共有する
- ゴールを明確にする
- 成果物の形式を指定する
- 制約(時間・品質・対象範囲)を伝える
- 不明点は質問してよい、と言う
これが、そのまま“効くプロンプト”になります。
「擬人化や感情移入は危険?」への私の立場
まず前提として、「AIを人間っぽく扱う/感情移入する」こと自体がリスクになり得る、という指摘は実際にあります。
ここでは「この手の議論が存在する」ことを、一次情報寄りのソースで押さえておきます。
OpenAIのGPT-4o System Cardでは、外部レッドチームが扱ったリスクカテゴリの一つとして 「擬人化リスク」 を明示しています。
"emotional perception and anthropomorphism risks"
HCI(Human-Computer Interaction)領域の研究では、性能そのものとは直接関係しない“人間らしさの手がかり”が、信頼や依存に影響し得ることが述べられています。
"attributes unrelated to performance shape metrics of user trust"
さらに Microsoft Research によるGenAIの「適切な信頼(appropriate reliance)」に関するサーベイでも、過剰依存などの 不適切な依存(inappropriate reliance) が負の結果を生む、と要約されています。
"Inappropriate reliance – either under-reliance or overreliance – on GenAI can have negative consequences"
これらの文脈で言えば、本記事の「AIを同僚として扱う」というコンセプトも、読み方によっては 擬人化を促し、過信・過剰依存のリスク領域に入る と見なされるかもしれません。
そのうえで、私は、AIを擬人化して感情移入すること自体を否定しません。
人間が幸せになるために道具やサービスがある以上、AIとの対話がその人の幸福に寄与するなら、それは良いことだと思っています。
ただし、ここで言う「同僚扱い」は むしろ逆 です。
- 同僚や部下の成果物でも、あなたは レビュー/テスト/ファクトチェック をします
- つまり「人間扱いする」ほど、完璧ではない前提で接し、検証が自然に組み込まれます
現実には、時間圧や認知負荷で検証が省略されることがあります。
これはAI固有というより、人間同士でも起きる“あるある”です。
AIを同僚扱いするなら、人間のあるある(検証漏れ/丸投げ/期待値ズレ)もAI相手に再現すると認識し、先回りして手当てするのが合理的です。
明日から使える:同僚に依頼する「5点セット」
雑プロンプトを避けるために、私は最低限この5つを入れます。
- 背景:なぜそれが必要か(何が困っているか)
- ゴール:何ができたら成功か(Doneの定義)
- 制約:守るべきルール(期限、互換性、禁止事項、品質基準など)
- 成果物:何を出してほしいか(コード/文章/表/手順、粒度)
- 確認方法:どう検証するか(テスト、観点、チェックリスト、受入条件)
さらに強い一言:
- 「不明点があれば、作業に入る前に質問して」
例:「いい感じにやって」を、同僚向けの依頼に変換する
例1:設計相談(曖昧 → 明確)
悪い例
この機能、いい感じに設計して。
良い例
背景:注文作成APIでエラー処理がバラついて、フロント側が対応しづらい。
ゴール:エラー形式を統一し、フロントがエラーコードで分岐できるようにしたい。
制約:既存の成功レスポンスは変更しない。互換性を崩さない。
成果物:設計案を2案(メリデメと採用基準付き)で、最後に推奨案を1つ。
不明点があれば質問してから進めて。
例2:バグ修正(丸投げ → 再現性)
悪い例
このエラー直して。
良い例
背景:本番で `NullReference` が出た。ユーザー影響がある。
再現手順:…(ログ/入力/環境)
ゴール:原因の特定と修正。再発防止としてテストを追加。
制約:既存仕様(受入シナリオ)は変えない。
成果物:原因→修正方針→修正差分(パッチ案)→追加テスト案。
例3:考えがまとまっていない時(雑 → 相談依頼)
「丁寧な指示を作れない」時もあります。
その場合は、同僚に相談するのと同じように頼めばよいです。
企画の要点がまだ整理できていない。
まずは質問して、前提とゴールを一緒に固めるディスカッションをしてほしい。
最後に、合意した前提・ゴール・次アクションを箇条書きでまとめて。
これでも、心構えは一貫しています。
この心構えの副産物:あなたの仕事が言語化され、強くなる
AIに依頼する時に「背景・ゴール・制約」を考える癖がつくと、自然にこうなります。
- 自分の仕事を具体化できる(何を作っているかが明確になる)
- 作業プロセスを選べる(なぜその手段なのか説明できる)
- 期待値調整がうまくなる(レビューや合意形成が速くなる)
- 同僚や部下への依頼も改善する
つまり、AI活用が上手い人は、AIがすごいというより
仕事の前提とゴールを言語化できることが多いです。
余談:この心構えは「技法」へ自然につながる
この心構えでAIと向き合うと、結果として
- 指示を具体化する
- 出力形式を指定する
- 例を示す
- 不明点を質問させる
- 反復で詰める
といった、世の中のプロンプト技法で語られる“型”に自然と寄っていきます。
さらに突き詰めると「指示文」だけでなく、渡す資料や前提の整備(コンテキストの設計)へ発展していきます。
ただ、いきなり方法論を詰め込むと重くなるので、本記事ではまず 姿勢(同僚扱い) に絞りました。
まとめ:AIを「優秀な同僚」として扱おう
- AIは便利です。速いです。雑な指示でも出力してくれます。
- でも、雑な指示は雑な結果(または推測)を招きます。
- だから、AIを「ツール」ではなく 優秀な同僚として扱い、
背景・ゴール・制約・成果物を渡すのが、最も再現性が高い。
あなたが毛嫌いする「丸投げ上司」をAIに対してやっていないか。
一度だけ振り返ってみると、AIとの付き合い方が変わるはずです。
おまけ:コピペ用テンプレ
あなたは私の優秀なアシスタントです。次の依頼を手伝ってください。
【背景】
(なぜ必要か/何が困っているか)
【ゴール】
(何ができたら成功か)
【制約】
(守るべきルール/禁止事項/互換性/期限)
【成果物】
(何を出すか:箇条書き、表、コード、手順など。粒度も)
【確認方法】
(テスト、チェック観点、受入条件など)
不明点があれば、作業に入る前に質問してください。
参考文献(本文中の“数字”と引用の出典)
-
OpenAI. (2023). GPT-4 Technical Report
https://arxiv.org/abs/2303.08774 -
Berrada, M. et al. (2024). Re-evaluating GPT-4's bar exam performance
https://law-ai.org/wp-content/uploads/2023/05/s10506-024-09396-9-4.pdf -
OpenAI. (2025). Why language models hallucinate
https://openai.com/index/why-language-models-hallucinate/ -
Tanaka, K. et al. (2024). Assessment of ChatGPT-4o’s clinical performance on the 118th National Medical Licensing Examination in Japan: Comparison With a Human Cohort (JMIR Medical Education)
https://mededu.jmir.org/2024/1/e63129 -
Rosbach, E. et al. (2024). Automation Bias in AI-Assisted Medical Decision-Making under Time Pressure in Computational Pathology (arXiv:2411.00998)
https://arxiv.org/abs/2411.00998 -
Ikeda, S. (2024). Inconsistent advice by ChatGPT influences decision making in various areas (Scientific Reports)
https://www.nature.com/articles/s41598-024-66821-4