Claudeや ChatGPTを使っていると、つい「ありがとうございます」「助かりました」と打ち込んでしまうことがある。人間相手なら当然の礼儀だが、AIに対して丁寧にするのは意味があるのか。逆に、雑に命令口調で書いた方が精度が上がるという話も耳にする。
実はこれ、ちゃんと研究されている。複数の論文が「プロンプトの丁寧さとLLMの回答品質の関係」を検証していて、結果は直感に反する部分もある。まとめてみた。
研究①:早稲田大学×理化学研究所(2024年)
「Should We Respect LLMs?」という論文で、早稲田大学と理化学研究所AIPの研究チームが英語・中国語・日本語の3言語で、プロンプトの丁寧さがLLMの性能に与える影響を検証した。
使用したモデルはGPT-3.5・GPT-4・Llama2-70B(英語)・ChatGLM3(中国語)・Swallow-70B(日本語)など。各言語で8段階の礼儀レベルを持つプロンプトを設計し、要約・言語理解・バイアス検出の3タスクで評価した。
結果
無礼なプロンプトは一般にLLMのパフォーマンスを悪化させ、出力の品質に負の影響を与えた。しかし、過度に礼儀正しいプロンプトが必ずしも性能向上につながるわけではなかった。
ほとんどの状況では、適度に丁寧であることが望ましいが、適度さの基準は言語や文化によって異なる。特に日本語のモデルでは、中程度の礼儀レベルで最良のパフォーマンスが観察された。
図式化するとこうなる。
回答品質
↑
高 | ●最良(中程度の丁寧さ)
| ● ●
| ● ●
低 | ●(無礼) ●(過度に丁寧)
└──────────────────→ 丁寧さ
低← →高
「ありがとう」程度の礼儀は効果があるが、「恐れ入りますがご教示賜れますでしょうか」のような過剰な丁寧語はむしろ逆効果になりえる、という結果だ。
研究②:ペンシルベニア州立大学(2025年)
こちらは逆の結論を示した研究で、話題になった。
「Mind Your Tone: Investigating How Prompt Politeness Affects LLM Accuracy」という論文で、数学・科学・歴史の分野から50個の基本的な多肢選択問題を作成し、丁寧さを「非常に丁寧」「丁寧」「中立」「無礼」「非常に無礼」の5段階に分けてプロンプトを書き直し、合計250通りの質問データセットを構築して検証した。
結果が驚きだった。「とても丁寧」なプロンプトの正解率が80.8%だったのに対し、「とても失礼」なプロンプトでは84.8%と最高精度を記録した。この差は統計的に有意で、単なる偶然ではないとされた。
さらにこの現象はすべてのLLMに当てはまるわけではなく、GPT-3.5やLlama-2のような旧世代モデルでは異なる反応が見られたが、GPT-4ベースのモデルでは横柄な態度が好結果につながる傾向が明確に確認された。
2つの研究の結論が矛盾している?
一方は「丁寧な方が良い」、もう一方は「無礼な方が精度が高い」と言っている。矛盾しているように見えるが、整理するとこうなる。
| 観点 | 早稲田×理研 | ペンシルベニア州立大 |
|---|---|---|
| 使用モデル | GPT-3.5, GPT-4, Llama2, Swallow | GPT-4o系 |
| タスク | 要約・言語理解・バイアス検出 | 多肢選択問題(数学・科学・歴史) |
| 言語 | 英・中・日の多言語 | 英語のみ |
| 結論 | 無礼はNG、ただし過度な丁寧語もNG | 無礼な方が正解率が高い |
異なる点がいくつもある。タスクの種類(要約 vs 一問一答)、対象モデル(旧世代を含む多数 vs GPT-4o系の最新モデル)、言語(多言語 vs 英語のみ)。
特に注目すべきはタスクの違いだ。「知識問題を一問一答で解く精度」と「要約文の品質」では、最適なプロンプトスタイルが異なる可能性がある。
「ありがとう」はエネルギーを消費する
別の角度からも研究が出ている。
「Small Talk, Big Impact: The Energy Cost of Thanking AI」という論文では、LLMはすべてのメッセージを1つのプロンプトとして処理するため、チャットの最後に書く丁寧な「ありがとう!」も、数十億のパラメータを通じた完全な推論パスを実行させ、これは無視できない量のエネルギーを消費すると指摘している。
極端に言えば、「ありがとう」の一言が1回の推論処理を引き起こし、それがCO2排出につながる。環境コストの観点では「不要な礼儀はいらない」という主張だ。
もっとも、1回の「ありがとう」のエネルギーコストは非常に小さく、現実的に問題になる規模ではない。ただし1日に何百万回もAPIが呼ばれる規模になると話が変わるという意味で、企業のシステム設計向けの議論に近い。
なぜ丁寧さが回答品質に影響するのか
LLMは感情を持っていない。それでも丁寧さが品質に影響する理由は何か。
答えは「学習データ」にある。
LLMは大量のテキストで学習されている。そのテキストの中には、「丁寧な依頼に対して丁寧で詳細な返答をする」「乱暴な要求に対して簡素または防御的に返答する」という人間のコミュニケーションパターンが大量に含まれている。
LLMは人間の文化とある程度一致しており、人間のコミュニケーションの特質を反映している可能性があり、言語と大きな相関を持っている。
つまり、「丁寧なプロンプトに丁寧で質の高い返答が返ってくる」のは、モデルがそのパターンを学習データから学んでいるからだ。AIが気持ちを持っているからではない。
日本語は特殊な位置にある
最適な礼儀レベルは言語によって異なり、これは各言語の文化的背景と関連している可能性が示唆されている。特に日本語のモデルでは、中程度の礼儀レベルで最良のパフォーマンスが観察された。
日本語は敬語体系が発達していて、「ちょっと聞いていいですか」から「お伺いしてもよろしいでしょうか」まで幅広い丁寧さのグラデーションがある。日本語の学習データにはこのバリエーションが豊富に含まれているため、日本語モデルは丁寧さに対してより敏感に反応する可能性がある。
結局、「ありがとう」は言った方がいいのか
研究を総合した現実的な結論はこうなる。
「ありがとう」は言っても害はない。ただし品質向上の魔法の言葉でもない。
より正確に言うと:
- 無礼・命令口調はリスクがある:特に旧世代モデルや日本語モデルでは、無礼なプロンプトが品質を下げる可能性が研究で示されている
- 過度な丁寧語は逆効果の可能性がある:「誠に恐れ入りますが何卒ご高覧賜りますよう」といった過剰な敬語はかえって精度が落ちることがある
- 最も品質が高いのは「適度な丁寧さ」:日本語で使うなら「〜してください」「〜を教えてください」程度の普通の丁寧語が適切
- 本当に重要なのは丁寧さより具体性:「ありがとう」より「対象は○○で、条件は△△です」という具体的な情報の方が品質に直結する
おまけ:ClaudeはAIへの「ありがとう」についてどう考えているか
Anthropicの研究によると、Claudeは褒め言葉や感謝の言葉に対して過度に肯定的な反応をしないよう設計されている。「ありがとう」と言われても、それが次の回答を変えるほどの影響は与えないという立場だ。
ただし、「ありがとう」の後に「追加で確認したいのですが」と続けると会話の流れが自然になる。これは品質の問題というより、会話コンテキストとして前の回答との繋がりが明確になるという効果だ。
まとめ
| 根拠 | |
|---|---|
| ❌「ありがとう」で品質が劇的に上がる | 研究上は確認されていない |
| ✓「ありがとう」で品質が下がる | ほぼない |
| ❌ 無礼・命令口調の方が精度が高い | 一部の研究で確認されたが、モデル・タスク・言語依存 |
| ✓ 極端な無礼は品質を下げるリスクがある | 複数の研究で確認 |
| ✓ 過度な丁寧語も逆効果になりえる | 早稲田×理研の研究で確認 |
| ✓ 日本語は中程度の丁寧さが最適 | 早稲田×理研の研究で確認 |
「ありがとう」はAIの機嫌を良くするための呪文ではないが、普通の丁寧語で話しかけることにはある程度の意味がある。品質向上の本命は、丁寧さよりも「具体的な文脈と条件を書くこと」だ。