「これ、AIでしょ?」— その直感、説明できますか?
最近、記事やSNSの投稿を読んでいて「あ、これAIが書いたな」と感じる瞬間が増えました。
でも「じゃあ何がAIっぽいの?」と聞かれると、意外と答えに詰まりませんか?
「なんか丁寧すぎる」「構成が綺麗すぎる」——ふわっとした感覚はあるけど、具体的にどの特徴がAIっぽさを生んでいるのかを説明できる人は少ないはずです。
そこで、実際に 6つのLLM(大規模言語モデル)で10テーマ × 3試行 = 180本の日本語記事を生成し、14個の指標で定量分析してみました。
結果、「AIっぽさ」の正体は3つの軸にほぼ集約されることがわかりました。
実験設計: 180本の記事をどう作ったか
使用モデル
商用モデルとOSS(オープンソース)モデルを混ぜて、計6モデルを用意しました。
| モデル | 種別 | パラメータ数 |
|---|---|---|
| GPT-4o | 商用 | 非公開 |
| Claude Sonnet | 商用 | 非公開 |
| Qwen 3.5 | OSS | 4B |
| Qwen 3.5 | OSS | 9B |
| Swallow | OSS | 20B |
| Llama 3.2 | OSS | 1B |
商用2モデル vs OSS4モデルという構図です。Swallowは日本語に特化して学習されたモデルで、Llama 3.2(1B)は最小パラメータの比較対象として入れています。
テーマと試行回数
プログラミング、キャリア、健康、教育など10テーマを設定し、各モデル × 各テーマで3回ずつ生成。合計 6 × 10 × 3 = 180本。
実験の詳細な手法とデータは論文として公開しています。
📄 AI Text Slop in Japanese: Quantifying Distributional Convergence Across Six Language Models (Zenodo)
計測指標
14個の指標で各記事を分析しました。主なものを挙げると:
- ai_freq_words: AI頻出語(「重要です」「不可欠です」「〜と言えるでしょう」等)の出現数
-
headings: 見出し(
##や###)の数 - list_markers: 箇条書きの数
- bold_count: 太字の使用回数
- boilerplate_conclusion: 「いかがでしたか?」的な定型まとめの有無
- three_set: 「3つのポイント」パターンの出現数
- sent_length_cv: 文長の変動係数(文の長さがどれだけバラつくか)
- hedging: 断定を避ける表現(「〜かもしれません」等)の数
結果: AIっぽさの正体は3つの軸に集約された
軸1: 語彙パターン(一番バレやすい)
AI頻出語の平均出現数(ai_freq_words):
Claude Sonnet : ████████████████████████████████████ 3.43
GPT-4o : ██████████████████████████████████ 3.33
Qwen 3.5 (4B) : ████████████████████████████ 2.70
Qwen 3.5 (9B) : ████████████████████████ 2.30
Llama 3.2 (1B): ████████████████████ 1.83
Swallow (20B) : █████████ 0.80
ClaudeとGPT-4oがぶっちぎりで多いです。
※ちなみにこのグラフはClaude Sonnetに図形化してもらいました。自分のAIっぽさを自分で可視化させられるAI、なかなかシュールです。
「〜と言えるでしょう」「重要です」「不可欠です」——これらの表現、人間はそこまで連発しません。特に技術記事で「不可欠です」を1記事に3回も使う人はなかなかいないですよね。
なぜ商用モデルほど多いのか?
それは RLHF(Reinforcement Learning from Human Feedback)の影響です。RLHFとは、人間のフィードバックをもとにモデルの出力を調整する学習手法のこと。「丁寧で分かりやすい文章」を高く評価するフィードバックが積み重なった結果、特定の「丁寧フレーズ」が過剰に強化されてしまいました。
いわば、褒められすぎて敬語が暴走した新入社員のようなものです。
軸2: 構造パターン
見出し数(headings)の平均:
Claude Sonnet : ██████████████████████████████████████████████████ 14.73
GPT-4o : █████████████████████████████████ 9.90
Qwen 3.5 (9B) : ██████████████████████ 6.57
Qwen 3.5 (4B) : █████████████████████ 6.53
Swallow (20B) : ████████████████████ 6.27
箇条書き数(list_markers)の平均:
Claude Sonnet : ██████████████████████████████████████████████████ 14.60
Swallow (20B) : ██████████████████████████████████ 10.13
GPT-4o : ██████████████████████████ 7.60
Qwen 3.5 (4B) : █████ 1.53
Qwen 3.5 (9B) : ████ 1.33
Claudeの構造パターンは際立っています。見出し14.7個、箇条書き14.6個。これは1本の記事の中に見出しと箇条書きが約15個ずつ入っている計算です。
Claudeで記事を生成すると、毎回ほぼ同じレイアウトになります。「導入 → ポイント1(箇条書き) → ポイント2(箇条書き) → ポイント3(箇条書き) → まとめ」。この金太郎飴感が「AIっぽさ」の大きな要因です。
また boilerplate_conclusion(定型まとめ)も見逃せません:
Swallow (20B) : 1.167
Claude Sonnet : 1.033
GPT-4o : 0.800
Qwen 3.5 (4B) : 0.567
記事の末尾に「いかがでしたか?」「ぜひ参考にしてみてください」的な定型フレーズがどれだけ出るか。Swallowが意外にもトップですが、この話は後述します。
軸3: リズムパターン
文長の変動係数(sent_length_cv):
Llama 3.2 (1B): 1.075
Swallow (20B) : 0.757
Qwen 3.5 (9B) : 0.593
Claude Sonnet : 0.562
sent_length_cvは「文の長さがどれだけバラつくか」を示す指標です。値が大きいほど、短い文と長い文が混在していることになります。
Llama 3.2(1B)は例外的にバラつきが大きいですが、これはモデルサイズが小さすぎて出力が不安定なだけ。それ以外のモデルは 0.55〜0.76 の範囲に収まっています。
人間の文章はもっとバラつきます。短い一文でバシッと言い切ったと思ったら、次の段落で長々と補足する。そういう「揺れ」がAIには少ない。
three_set(「3つのポイント」パターン)も全モデルで1.0以上:
Claude Sonnet : 1.333
GPT-4o : 1.133
Qwen 3.5 (4B) : 1.033
「ポイントは3つあります」——便利な構成ですが、AIはこれを使いすぎます。毎回3つにまとめる癖があるんです。
意外な発見3つ
発見①: 商用モデルほど「AIっぽい」
直感に反する結果かもしれません。お金を払って使うGPT-4oやClaudeのほうが、無料のOSSモデルより「AIっぽい」文章を書くのです。
理由はRLHFにあります。商用モデルはユーザー満足度を最大化するために大量のフィードバックで調整されています。その結果、「丁寧」「分かりやすい」「構造化されている」という方向に均質化が進み、かえってパターンが読みやすくなってしまいました。
皮肉な話です。良いモデルを作ろうとした努力が、検出しやすさにつながっている。
発見②: Swallowパラドックス
Swallowは日本語に特化した20Bパラメータのモデルです。日本語が得意なら、日本語のAI臭も強くなるのでは?——と思いきや、AI頻出語はたったの0.80で全モデル最少でした。
ところが boilerplate_conclusion は 1.167でトップ。つまり「重要です」「不可欠です」みたいなAI語は使わないのに、記事の締め方だけやたら定型的。
語彙レベルでは人間に近いのに、構造レベルでバレるという面白いパターンです。日本語の自然さと、文章構成の多様性は別の能力なのかもしれません。
発見③: 人間の文章はもっとバラバラ
今回の実験で最も印象的だったのは、AIの「安定感」です。
同じテーマで3回生成しても、AIはほぼ同じ骨格の記事を出力します。見出しの数、箇条書きの位置、まとめの書き方——テンプレートのように一定。
一方、人間が同じテーマで3本書いたら、毎回構成が変わります。ある日は結論から書き、ある日はエピソードから入り、ある日は箇条書きゼロで全部地の文。
この「バラバラさ」こそが人間の文章の特徴であり、AIとの最大の違いです。逆に言えば、AIの文章が「っぽく」見えるのは、毎回同じパターンで書いてしまうからなんです。
じゃあどうすれば「AIっぽく」ならない?
ここまでの分析を踏まえて、AI生成テキストの「っぽさ」を消すための具体的な方法をまとめます。
一次情報を入れる。
体験談、失敗談、固有名詞。「先週、本番デプロイで3時間ハマった」みたいな話はAIが生成できません。一次情報が入った瞬間、記事の説得力と「人間味」が一気に上がります。
構造を崩す。
「3つのポイント」をやめてみる。いきなり結論から入る。途中で脱線して戻ってくる。見出しの数を減らす。Claudeが14個つける見出しを5個にする。それだけで印象が変わります。
語彙を入れ替える。
「重要です」と書きそうになったら、具体的に何が重要なのかを書く。「パフォーマンスチューニングは重要です」→「レスポンスが200ms遅くなるとCVRが7%落ちる、という自社データがある」。抽象から具体へ。
文の長さにバラつきを持たせる。
短文。
からの、ちょっと長めの補足説明を入れて文章にリズムの波を作ると、読み心地がぐっと変わります。AIは文の長さを均一にしがちなので、意図的に崩すだけで効果があります。
ただし、これは「AIを使うな」という話ではありません。AIで下書きを作って、人間が崩す。これが2025年の現実的なワークフローです。問題は「AIが書いたものをそのまま出すこと」であって、道具として使うこと自体ではありません。
まとめ
180本の記事を分析してわかったのは、「AIっぽさ」の正体が語彙・構造・リズムの3つの均質化だということでした。
そして最もAIっぽい文章を書くのが、最もお金のかかる商用モデルだったという皮肉。RLHFで「良い文章」を追求した結果、みんな同じ「良い文章」になってしまった。
人間の文章が持つ強みは「バラバラさ」です。毎回違う構成で書く、脱線する、短文と長文を混ぜる、体験を入れる。そういう「ノイズ」こそが、読者に「この人が書いたんだな」と思わせる要素でした。
AIに書かせること自体は悪くない。ただ、出力されたものを読んで「なんかAIっぽいな」と自分で気づけるかどうか。その目を持つために、この記事のデータが少しでも参考になれば嬉しいです。
📘 AIっぽさから脱出する具体的な方法をもっと知りたい方へ
本記事の実験データをベースに、UI・文章・コードまで含めた「AI同質化」からの脱出方法を体系的にまとめた 「なぜAI生成UIは全部青いのか — 同質化から脱出する技術」 をZennで公開しています。