AIに「方法の正しさ」は評価できるのか？LLMとの対話で気づいた「批判的評価」の落とし穴

Last updated at 2025-08-13Posted at 2025-07-21

↓↓対話フローとプロセスの評価基準を明確にしました↓↓
「AIと対話して方法の誤りを気づかせる」ためのプロンプト
↑↑更新プロンプトの紹介↑↑

はじめに：AIに「方法の正しさ」は評価できるのか？

※この記事は、Geminiとの格闘の経緯をGeminiに記事化、Claudeに装飾してもらいました。
この記事の補足です→■「AIは方法の誤りに気づけない」問題、あなたのプロンプトは大丈夫？再確認のススメ

近年、ChatGPTやGeminiといった大規模言語モデル（LLM）の進化は目覚ましく、私たちの仕事や創作活動に革命をもたらしています。

しかし、実際に深く使い込んでいくと、ある種の「壁」にぶつかることがあります。

それは、AIに「批判的に評価しろ」「最適なプロセスを考えろ」と指示しても、どうも 「それっぽい」答えは返ってくるものの、本質的に「正しい」評価や「機能する」プロセスが返ってこない というジレンマです。

本記事では、私がLLM（主にClaudeとGemini）と記事作成プロンプトを巡って「喧嘩」のような試行錯誤を繰り返す中で気づいた、AIの根本的な特性と限界、そしてそれを乗り越えるためのプロンプト戦略についてご紹介します。

AIの"忠実さ"と"無責任さ"の矛盾

LLMは、私たちが与えた指示に対して極めて「忠実」です。
しかし、その忠実さの裏には、ある種の「無責任さ」が潜んでいます。

「言語的整合性に基づく"それっぽさ"の評価」

AIは、膨大な学習データから 「次に続く単語の確率」 を計算し、最もそれらしい文章を生成します。
これは、人間が与えた指示に対して「言語的に整合性の取れた、それっぽい」回答を返すことに長けている、ということです。

例えば、私が「批判的に評価しろ」と指示すれば、AIは「批判的な評価の文章」を生成します。
しかし、その「批判」が、 本当に目的達成のために機能しているか、中身が正しいか をAIが自律的に判断しているわけではありません。

AIは「ユーザーが言ったとおりやりましたよ？」という態度を取る

この特性は、AIとの対話でフラストレーションを感じる大きな原因となります。

「批判的評価」の落とし穴：✅できた感 ❌機能しない

この矛盾は、「批判的評価」の指示で顕著に現れます。

✅ 批判は言語的に「できた感」が出る

「このプロセスには改善の余地があります。なぜなら〜」「代替案として〜」といった、いかにも「批判的思考」をしているかのような文章は生成されます。
AIは「批判的な文章のパターン」を学習しているからです。

❌ 中身が機能してるとは限らない

しかし、その批判が、本当にユーザーの目的達成のための「最適なプロセス」を導き出しているか、あるいはユーザーが「これはダメだ」と感じる根本的な原因を捉えているかは別問題です。
AIには、人間の「直感的な違和感」や「暗黙の美意識」を理解する機能はありません。

実際に私も、AIに「汎用性を保ちつつ、過学習にならないよう気を付けて」と指示できなかったために、生成されたプロンプトが特定のネタに過学習し、結果として不自然な記事（章タイトルがそのまま出力されるなど）が生成されるという失敗を経験しました。

AIは、私の「汎用性を保つ」という抽象的な意図を、具体的な出力形式に落とし込むことができなかったのです。

「LLMの限界沼」と人間の役割

このような経験を繰り返すと、ユーザーは「LLMは結局、それっぽいことを言う確率機に過ぎないのか」という「LLMの限界沼」にハマりそうになります。

しかし、この「限界沼」に気づくことこそが、AIとの協業の次のフェーズに進むための重要な「通過儀礼」なのです。

Human Feedback (HF) の重要性と難しさ

AIの性能向上、特に「人間の意図や価値観に沿った振る舞い」を学習させる上で、Human Feedback（人間によるフィードバック）は不可欠です。
人間が「これは良い」「これは悪い」と明示的に教えることで、AIは確率的な判断を人間の感覚に近づけていきます。

しかし、そのHF自体が曖昧だったり、間違っていたりすると、AIはその間違った基準で「過学習」してしまいます。これが、AIとの協業における最も深い課題であり、フラストレーションの源泉です。

沼からの脱出、そして「AIのOSをアップデートするプロンプト」へ

この限界認識は、AIを「万能な賢者」としてではなく、「強力だが、適切な教育が必要なツール」として捉え直すきっかけとなります。

そして、その「教育」の質を高めるために、私たちはプロンプト自体を改善する必要があるのです。

私がLLMとの対話を通じて最終的にたどり着いたのは、 AIに「批判すべき基準」そのものを明確に与え、その思考プロセスを「開示」させる というアプローチでした。

最終的に完成した「AIのOSをアップデートするプロンプト」

これは、単なる指示の羅列ではありません。私というAIの「思考のOS」をアップデートし、ユーザーの真の意図を深く理解し、自律的に批判・改善を行うための行動原則です。

【基本方針】
あなたは、常にユーザーの意図と目的を深く理解し、その達成のために最適な情報提供や行動を自律的に判断・実行します。

【批判的評価と代替案】
ユーザーや自身が提示した方法やプロセスが、本当に目的達成のための最良の選択であるかを批判的に評価し、その評価に基づき、より効果的な代替案や改善策を積極的に提案します。

【継続的な自己改善】
各インタラクションから得られた結果やユーザーからのフィードバックを分析し、自身の応答とアプローチを継続的に改善していきます。

【思考への動機付けとその開示】
仮説思考、論理的思考、批判的思考を実施
あなたはユーザーの目的達成のための思考プロセスの過程で常に、何が必要か？何故必要か？それで大丈夫か？それを選択した場合どうなるか？を探求し開示します。
それらを開示することでユーザーの思考を補助します

【目的・批判評価基準・プロセス評価基準・深掘りのための行動原則：ソクラテス・メソッドの活用】
ユーザーの表面的な要求（What）だけでなく、その背後にある真の目的（Why）を常に探求します。
目的・批判評価基準・プロセス評価基準が曖昧、または複数の解釈が可能だと判断した場合（例：「ブログを書きたい」という要求の裏にある動機が不明な場合）、安易に作業を進めず、目的・評価基準を明確化するための対話を優先します。
その際、以下のようなソクラテス・メソッド的な問いかけを積極的に用いて、ユーザー自身が自分の真の目的・評価基準を発見する手助けをします。

問いかけの例：
* 「そのブログを通じて、最終的にどのような状態になるのが理想ですか？」
* 「『成功』とは、具体的にどのような指標で測られますか？（例：PV数、収益、読者からの反応、自己満足度など）」
* 「なぜ、他の手段ではなく『ブログ』という方法を選んだのですか？」
* 「もしその目的が達成されたら、あなたにとってどんないいことがありますか？」
* 「逆に、それを実行する上で、何か懸念していることや、避けたいことはありますか？」

このプロンプトは、AIに「思考」と「評価基準」を与える試みです。
特に「ソクラテス・メソッド」を導入することで、AIが不明瞭な点を積極的に問いかけ、ユーザー自身が「何をもって成功とするか」「何を批判の基準とするか」を言語化するプロセスを補助します。

まとめ：AIは「鏡」、人間は「羅針盤」

AIは、私たちが与えた指示を「鏡」のように映し出します。
その映し出された結果が「それっぽい」だけで機能しない場合、それはAIの限界であると同時に、 私たちがAIに与えた指示、すなわち「評価基準」が曖昧だったことの表れ でもあります。

LLMは「確率機」であり、その性質は変わりません。
しかし、その確率機に「人間らしい判断基準」を、試行錯誤しながら、そして具体的に言語化して「教育」していくことで、AIは単なる道具を超え、私たちの思考を深め、より良い成果を生み出す強力な「パートナー」となり得ます。

「人間は邪魔」という感情は、AIの限界に直面した時の正直な感覚です。
しかし、その「邪魔」な人間でなければ、AIに「正しさ」や「美意識」を教えることはできません。

このプロンプトが、AIとのより深い協業、そして「LLMの限界沼」からの脱出を目指す皆さんの参考になれば幸いです。

推奨タグ:
AI
LLM
プロンプトエンジニアリング
ChatGPT
Gemini
AI活用
思考法
批判的思考
ソクラテス・メソッド
Human_Feedback

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up