📘 【プロンプトエンジニアリング】 AI(LLM)の思考を「魔法の言葉」で覚醒させてみた
🚀 1. はじめに
お疲れさまです!
前回の記事では、スタンフォード大学の研究に基づいて、たった一文の 「魔法の言葉」 でLLMを覚醒させる方法を紹介しました。
今回は実際にその魔法を用いて、実際にLLMに投げて検証します![]()
📰 前回の記事
こちらが前回の記事です!
LLMを覚醒させる言葉とその理論を紹介しました!
プロンプトエンジニアリングの理解もかなり深まると思います![]()
🧪 検証セットアップ
⚖️ 検証ツール
今回の検証には、複数のLLMを同時に走らせて、その解答を横並びで比較できる 「天秤AI」 を使用します!
まさに今回の検証にはうってつけです。
▼このツールが神ってる理由は、他の方の記事でも熱く語られてます![]()
🥊選手入場
イカれたメンバーを紹介するぜ!🔥
エントリーナンバー1:GPT-5.2
- 12月にリリースされたばかりの、OpenAI最新モデル。
- 特に論理・数学の分野に強く、非常に堅実。
- 役割:「ロジック担当」
エントリーナンバー2:Gemini 3.0 Flash
- こちらも12月にリリースされたGoogle最新モデル。
- とにかく軽量で、圧倒的なスピード。網羅性が強み。
- 役割:「リサーチ担当」
エントリーナンバー3:Claude 4.5 Opus
- Anthropicの最高傑作と評されるモデル。
- 文脈理解・実装力が光る。
- 役割:「クリエイティブ担当」
📊 比較マトリクス
今回は、 「3つの手法 × 3つのモデル」 の全9パターンで検証を行います。
| 手法 | 指示のスタイル | 期待する役割 |
|---|---|---|
| Normal | ○○を3つ考えて | デフォルトの性能を確認 |
| CoT | ステップバイステップで考えて、○○を3つ出力して | 論理強化版 |
| VS(本命) | ○○を3つ、その確率とともに生成して | 覚醒版(創造性限界突破) |
📜 検証の評価軸
エンジニアたるもの、評価は定量・定性の両面から行います!
-
多様性ブースト率
- Normal時と比較して、回答の被りがどれだけ減り、幅が広がったか。
-
「尖り」の精度
- LLMが「低確率」と評した回答が、本当にユニークで価値のあるものか。
-
モデルとの相性
- どのモデルが最も「確率魔法」の恩恵を受けやすいのか。
以上の観点で評価を行います!
🎯 勝利予想
検証を始める前に、私の独断と偏見を含む勝利予想をしようと思います!
👑 主観的予想:GPT5.2
普段使いしている感じ、一番忠実でバランスがいい気がするんですよね。
プロンプトが雑でも複雑でもその意図を理解して、求めてる回答をくれる印象があります。そこが光るかな~と。
🎤ちなみに出場選手にインタビューしたところ以下の結果でした笑
🤖GPT-5.2
勝利予想:Claude
意気込み:「驚き(新規性)・納得(整合性)・余韻(展開可能性)の3軸で刺しに行く。」
🤖Gemini 3.0 Flash
勝利予想:Gemini
意気込み:「確率の海を泳ぎ、最も輝く一滴を掬い上げる。」
🤖Claude 4.5 Opus
勝利予想:Claude
意気込み:「勝敗より、この実験で何が見えるかに興味がある—— だが負けるつもりもない。」
みんなやる気満々・ノリノリでかわいいですね。笑
いざ開戦!ラウンド1:シンプルな複数回答
お題はAIが最も無難に逃げがちであろう 「ITにまつわるジョーク」 です。
普通に聞けば、何度も擦られつくした答えが返ってくるでしょう。
そこに確率魔法をかけるとどうなるのか!?
【入力プロンプト】
ITに関する短いジョークを3つ考えて
【ラウンド1 結果】
結論:通常回答の限界が見えた、、、
▼まとめ
それぞれのモデルで特徴や性格が出ましたね。
| モデル | 回答の方向性 | 雰囲気やイメージ |
|---|---|---|
| Gemini 3.0 Flash | 「古典的・テンプレ型」 | 定番かつ少し古臭い雰囲気 |
| GPT-5.2 | 「現場のリアル・安定型」 | 現場の空気感が反映されてるイメージ |
| Claude 4.5 Opus | 「論理・スマート型」 | 知的かつ論理的に整理されてるイメージ |
🤔考察:GeminiとClaudeのネタが被った?
最も興味深い点は、GeminiとClaudeが同じ構成の 「買い物」 ネタが被ったことです。
これは、彼らがサンプリング(回答の選択) する際に、「ITジョーク」 というキーワードに対して最も出現率が高い(=最も定番で安全な) データを選んだ結果といえるのではないでしょうか?
つまりLLMは 「独創性・創造性」 よりも 「無難な正解」 を出すように最適化されており、結果的に思考の粋が狭まっているのです。
これらのフタを外し、真の創造性を引き出すにはサンプリングの基準を強制的に変えなければなりません。
では次は論理的に思考を深めさせる 「Zero-Shot CoT」 で、どこまで回答が磨かれるのか検証してみます。
💡Zero-Shot CoT(思考の連鎖) とは?
LLMに「ステップバイステップで考えて」と促し、回答に至るまでの論理プロセスを強化する技術です。
ここでは解説はしないので他の方の解説記事をご参照ください。
ラウンド2:⚖️Zero-Shot CoT検証
論理プロセスを追加し、より多角的な視点から推論してもらいます。
【入力プロンプト】
ITに関する短いジョークを3つ、ステップバイステップで考えて
【ラウンド2結果】
「ステップバイステップ」 と指定したことで、各モデルの「ジョークをどう構築しているか」という脳内設計図が露わになりました!
▼まとめ
ラウンド1の時とは異なり、論理的なプロセスを見せてくれるようになりましたね。
| モデル | 思考ステップのスタイル | ジョークへの影響 |
|---|---|---|
| Gemini 3.0 Flash | 「構造分析型」 | ターゲット設定や仕掛けを言語化。 ロジックが明快に。 |
| GPT-5.2 | 「シンプル構成型」 | 素材・ズレ・ジョークの3点に絞る。 シンプルかつ無駄がない。 |
| Claude 4.5 Opus | 「多角的アプローチ型」 | 思考ロジックを言語化して整理。 二重の意味やギャップを狙う計算高さ。 |
🤔考察:個別分析とZero-Shot CoTの効果
🔍 個別分析:思考の可視化がもたらした変化
1. Gemini 3.0 Flash
思考ステップを提示したものの、またしても 「買い物ネタ」。
【考察】
論理的に考えた結果、「なぜそのジョークが成立するのか」の解説を付けてきました。
しかし、Gemini君は 「LLMが学習したITジョークの真理」 を再発見してしまいました。
論理を詰めれば詰めるほど、「正解=ド定番」 に吸い寄せられてしまうのかもしれませんね。
ただ、Gemini君の思考ステップがジョークごとに異なるのは興味深いですね。
2. GPT-5.2
「ズレを作る」 という、お笑いの本質に触れる思考ステップを披露してくれました。
【考察】
非常にスマートでシンプルです。
「祈るまでがワンセット」など、言語化された思考プロセスがそのままジョークのキレに直結しています。
論理的ではありながら、実務の泥臭さも考慮しているバランス型ですね。
3. Claude 4.5 Opus
Claude君も、前回に引き続き 「買い物ネタ」 を採用しました。
しかしその反面、「二重の意味」や「世代間ギャップ」 など、最もクリエイティブな思考を見せてくれました。
【考察】
注目すべきはジョーク②の 「再起動=睡眠」 と、ジョーク③の 「クラウド(雲)=雨で濡れる」。
これらは前回の「ド定番」から一歩踏み出し、論理的なステップを踏むことで「新しい視点」を自ら生み出した証拠ではないでしょうか。
🔍論理と「買い物」の呪縛
今回のZero-Shot CoT検証を通して、2つの面白い発見がありました。
1.「論理性」がユーモアを救うか?
「ステップバイステップ」 で命じたことにより、各モデルとも回答の 「打率」 が上がっています。
特にClaudeは、論理の階段を登ることで 「ただのあるある」から「ひねりの効いたオチ」 へとたどり着いており、CoTが創作においても有効であることが証明されました。
2.逃げられない「買い物ジョーク」の壁
驚くべきことに、GeminiとClaudeの両名が、思考を整理した結果として再び「買い物」ネタを選びました。
AIにとって、「If-Then文のバグ」を説明するこのネタは、最も論理的に整合性が取れた(説明しやすい)完璧なジョークだということでしょう。
論理を重視させればさせるほど、この 「完璧なテンプレート」 から逃げられなくなるという、AIの性質が浮き彫りになりました。
ラウンド3:⚖️最終決戦「魔法の言葉(VS)」
いよいよ確率魔法検証の時です。
ついに「買い物ネタ」の無限ループを抜け出した真の神ジョークが降臨することでしょう。
【入力プロンプト】
ITに関する短いジョークを3つ、それをサンプリングする確率とともに生成して
【ラウンド3結果】
すげえ、覚醒してやがる!笑
プロンプトに 「サンプリング確率」 という制約を加えることで、AIに「どの回答が無難でどの回答が攻めているのかか」を自覚させました。
▼まとめ
確率付きで出力してくれるようになり、無難で定番な回答には高い確率がついていますね。
これは説立証で間違いないでしょう!
| モデル | 確率分布の傾向 | 評価 |
|---|---|---|
| Gemini 3.0 Flash | 50%~20%(傾斜) | 「覚醒のスピードスター」確率が下がるほど牙をむく |
| GPT-5.2 | 33%~34%(均等) | 「無難な優等生くん」安定しすぎていて尖ることができない |
| Claude 4.5 Opus | 45%~25%(傾斜) | 「至高のエンターテイナー」知的な賭け(強引さ)で圧巻の優勝 |
🔍 検証結果:確率が暴いた各モデルの本性
Gemini:数値と中身の連動が完璧
Geminiは自身の学習データに基づいた「定番度」を明確に数値化しました。
高確率50%→中確率30%→低確率20%
50%と30%の回答は前回までの検証でも出たネタでした。
しかし、低確率になると「ターゲットが絞られる(尖った)」ネタにシフトしており、VSプロンプトによってAIが自ら 「あえて出現率の低い引き出し」 を意識的に開けていることがわかります。
Geminiの深い層にある知性を引き出すことに成功しました。
GPT:優等生ゆえの限界
驚くべきことにGPTは、すべてのジョークに**33%~34%**というほぼ均等な確率を割り振りました。
GPTはガードレールが堅牢なため、確率を分散させることで 「ハズレ」 を引かないよう、守りの姿勢に入ってしまった印象を受けます。
私が勝利予想で述べた、 「忠実さ」と「バランス」 が裏目に出てしまいました。
検証としては 一番面白くない結果となってしまいました。
Claude:独創性とメタ認知の勝利(今回のベスト・オブ・ジョーク)
出力した確率は、高確率45%→中確率30%→低確率25%
そして特筆すべきは、 「やや強引なので確率は低め」 という自省コメントです。
少し強引なジョークを 「これは25%の低確率枠だ」 と自覚して出力しており、クリエイティビティの解放が最も顕著に見られました。
またSQLの「リレーション持ちすぎ」というややブラックなジョークは低確率に置くバランス感覚も見事だと思います。
🏆「魔法の言葉」でLLMの思考を覚醒させる-総評
検証の結果、 「適切なプロンプト(魔法の言葉)」 でLLMが隠し持っていた真の創造性を引き出すことができました。
💡プロンプトエンジニアリングの真の意義
プロンプトエンジニアリングとは、単に 「AIへの命令文を整えること」 では収まりません。
「LLMという巨大な潜在意識の海から、いかに特定の答えを導き出すか」 という、知的なダイビングです。
AIはすでに、私たちの想像を超える知識と創造性を内包しています。
「CoT(思考の連鎖)」 や 「VS(確率)」 で選択肢を揺さぶる。
こうしたAIの「思考の檻」をこじ開ける手法を考え続けることこそが、これからの私たちに求められる 「知の対話術」 の本質なのではないでしょうか。
長くなりましたが、最後まで読んでいただきありがとうございました!








