「なんとなくAIっぽい」の正体を180本の記事で特定した

Last updated at 2026-03-24Posted at 2026-03-24

「これ、AIでしょ？」— その直感、説明できますか？

最近、記事やSNSの投稿を読んでいて「あ、これAIが書いたな」と感じる瞬間が増えました。

でも「じゃあ何がAIっぽいの？」と聞かれると、意外と答えに詰まりませんか？

「なんか丁寧すぎる」「構成が綺麗すぎる」——ふわっとした感覚はあるけど、具体的にどの特徴がAIっぽさを生んでいるのかを説明できる人は少ないはずです。

そこで、実際に 6つのLLM（大規模言語モデル）で10テーマ × 3試行 = 180本の日本語記事を生成し、14個の指標で定量分析してみました。

結果、「AIっぽさ」の正体は3つの軸にほぼ集約されることがわかりました。

実験設計: 180本の記事をどう作ったか

使用モデル

商用モデルとOSS（オープンソース）モデルを混ぜて、計6モデルを用意しました。

モデル	種別	パラメータ数
GPT-4o	商用	非公開
Claude Sonnet	商用	非公開
Qwen 3.5	OSS	4B
Qwen 3.5	OSS	9B
Swallow	OSS	20B
Llama 3.2	OSS	1B

商用2モデル vs OSS4モデルという構図です。Swallowは日本語に特化して学習されたモデルで、Llama 3.2（1B）は最小パラメータの比較対象として入れています。

テーマと試行回数

プログラミング、キャリア、健康、教育など10テーマを設定し、各モデル × 各テーマで3回ずつ生成。合計 6 × 10 × 3 = 180本。

実験の詳細な手法とデータは論文として公開しています。
📄 AI Text Slop in Japanese: Quantifying Distributional Convergence Across Six Language Models (Zenodo)

計測指標

14個の指標で各記事を分析しました。主なものを挙げると:

ai_freq_words: AI頻出語（「重要です」「不可欠です」「〜と言えるでしょう」等）の出現数
headings: 見出し（## や ###）の数
list_markers: 箇条書きの数
bold_count: 太字の使用回数
boilerplate_conclusion: 「いかがでしたか？」的な定型まとめの有無
three_set: 「3つのポイント」パターンの出現数
sent_length_cv: 文長の変動係数（文の長さがどれだけバラつくか）
hedging: 断定を避ける表現（「〜かもしれません」等）の数

結果: AIっぽさの正体は3つの軸に集約された

軸1: 語彙パターン（一番バレやすい）

AI頻出語の平均出現数（ai_freq_words）:

Claude Sonnet : ████████████████████████████████████ 3.43
GPT-4o        : ██████████████████████████████████   3.33
Qwen 3.5 (4B) : ████████████████████████████         2.70
Qwen 3.5 (9B) : ████████████████████████             2.30
Llama 3.2 (1B): ████████████████████                 1.83
Swallow (20B) : █████████                            0.80

ClaudeとGPT-4oがぶっちぎりで多いです。

※ちなみにこのグラフはClaude Sonnetに図形化してもらいました。自分のAIっぽさを自分で可視化させられるAI、なかなかシュールです。

「〜と言えるでしょう」「重要です」「不可欠です」——これらの表現、人間はそこまで連発しません。特に技術記事で「不可欠です」を1記事に3回も使う人はなかなかいないですよね。

なぜ商用モデルほど多いのか？

それは RLHF（Reinforcement Learning from Human Feedback）の影響です。RLHFとは、人間のフィードバックをもとにモデルの出力を調整する学習手法のこと。「丁寧で分かりやすい文章」を高く評価するフィードバックが積み重なった結果、特定の「丁寧フレーズ」が過剰に強化されてしまいました。

いわば、褒められすぎて敬語が暴走した新入社員のようなものです。

軸2: 構造パターン

見出し数（headings）の平均:

Claude Sonnet : ██████████████████████████████████████████████████ 14.73
GPT-4o        : █████████████████████████████████                  9.90
Qwen 3.5 (9B) : ██████████████████████                             6.57
Qwen 3.5 (4B) : █████████████████████                              6.53
Swallow (20B) : ████████████████████                               6.27

箇条書き数（list_markers）の平均:

Claude Sonnet : ██████████████████████████████████████████████████ 14.60
Swallow (20B) : ██████████████████████████████████                 10.13
GPT-4o        : ██████████████████████████                          7.60
Qwen 3.5 (4B) : █████                                              1.53
Qwen 3.5 (9B) : ████                                               1.33

Claudeの構造パターンは際立っています。見出し14.7個、箇条書き14.6個。これは1本の記事の中に見出しと箇条書きが約15個ずつ入っている計算です。

Claudeで記事を生成すると、毎回ほぼ同じレイアウトになります。「導入 → ポイント1（箇条書き） → ポイント2（箇条書き） → ポイント3（箇条書き） → まとめ」。この金太郎飴感が「AIっぽさ」の大きな要因です。

また boilerplate_conclusion（定型まとめ）も見逃せません:

Swallow (20B) : 1.167
Claude Sonnet : 1.033
GPT-4o        : 0.800
Qwen 3.5 (4B) : 0.567

記事の末尾に「いかがでしたか？」「ぜひ参考にしてみてください」的な定型フレーズがどれだけ出るか。Swallowが意外にもトップですが、この話は後述します。

軸3: リズムパターン

文長の変動係数（sent_length_cv）:

Llama 3.2 (1B): 1.075
Swallow (20B) : 0.757
Qwen 3.5 (9B) : 0.593
Claude Sonnet : 0.562

sent_length_cvは「文の長さがどれだけバラつくか」を示す指標です。値が大きいほど、短い文と長い文が混在していることになります。

Llama 3.2（1B）は例外的にバラつきが大きいですが、これはモデルサイズが小さすぎて出力が不安定なだけ。それ以外のモデルは 0.55〜0.76 の範囲に収まっています。

人間の文章はもっとバラつきます。短い一文でバシッと言い切ったと思ったら、次の段落で長々と補足する。そういう「揺れ」がAIには少ない。

three_set（「3つのポイント」パターン）も全モデルで1.0以上:

Claude Sonnet : 1.333
GPT-4o        : 1.133
Qwen 3.5 (4B) : 1.033

「ポイントは3つあります」——便利な構成ですが、AIはこれを使いすぎます。毎回3つにまとめる癖があるんです。

意外な発見3つ

発見①: 商用モデルほど「AIっぽい」

直感に反する結果かもしれません。お金を払って使うGPT-4oやClaudeのほうが、無料のOSSモデルより「AIっぽい」文章を書くのです。

理由はRLHFにあります。商用モデルはユーザー満足度を最大化するために大量のフィードバックで調整されています。その結果、「丁寧」「分かりやすい」「構造化されている」という方向に均質化が進み、かえってパターンが読みやすくなってしまいました。

皮肉な話です。良いモデルを作ろうとした努力が、検出しやすさにつながっている。

発見②: Swallowパラドックス

Swallowは日本語に特化した20Bパラメータのモデルです。日本語が得意なら、日本語のAI臭も強くなるのでは？——と思いきや、AI頻出語はたったの0.80で全モデル最少でした。

ところが boilerplate_conclusion は 1.167でトップ。つまり「重要です」「不可欠です」みたいなAI語は使わないのに、記事の締め方だけやたら定型的。

語彙レベルでは人間に近いのに、構造レベルでバレるという面白いパターンです。日本語の自然さと、文章構成の多様性は別の能力なのかもしれません。

発見③: 人間の文章はもっとバラバラ

今回の実験で最も印象的だったのは、AIの「安定感」です。

同じテーマで3回生成しても、AIはほぼ同じ骨格の記事を出力します。見出しの数、箇条書きの位置、まとめの書き方——テンプレートのように一定。

一方、人間が同じテーマで3本書いたら、毎回構成が変わります。ある日は結論から書き、ある日はエピソードから入り、ある日は箇条書きゼロで全部地の文。

この「バラバラさ」こそが人間の文章の特徴であり、AIとの最大の違いです。逆に言えば、AIの文章が「っぽく」見えるのは、毎回同じパターンで書いてしまうからなんです。

じゃあどうすれば「AIっぽく」ならない？

ここまでの分析を踏まえて、AI生成テキストの「っぽさ」を消すための具体的な方法をまとめます。

一次情報を入れる。

体験談、失敗談、固有名詞。「先週、本番デプロイで3時間ハマった」みたいな話はAIが生成できません。一次情報が入った瞬間、記事の説得力と「人間味」が一気に上がります。

構造を崩す。

「3つのポイント」をやめてみる。いきなり結論から入る。途中で脱線して戻ってくる。見出しの数を減らす。Claudeが14個つける見出しを5個にする。それだけで印象が変わります。

語彙を入れ替える。

「重要です」と書きそうになったら、具体的に何が重要なのかを書く。「パフォーマンスチューニングは重要です」→「レスポンスが200ms遅くなるとCVRが7%落ちる、という自社データがある」。抽象から具体へ。

文の長さにバラつきを持たせる。

短文。

からの、ちょっと長めの補足説明を入れて文章にリズムの波を作ると、読み心地がぐっと変わります。AIは文の長さを均一にしがちなので、意図的に崩すだけで効果があります。

ただし、これは「AIを使うな」という話ではありません。AIで下書きを作って、人間が崩す。これが2025年の現実的なワークフローです。問題は「AIが書いたものをそのまま出すこと」であって、道具として使うこと自体ではありません。

まとめ

180本の記事を分析してわかったのは、「AIっぽさ」の正体が語彙・構造・リズムの3つの均質化だということでした。

そして最もAIっぽい文章を書くのが、最もお金のかかる商用モデルだったという皮肉。RLHFで「良い文章」を追求した結果、みんな同じ「良い文章」になってしまった。

人間の文章が持つ強みは「バラバラさ」です。毎回違う構成で書く、脱線する、短文と長文を混ぜる、体験を入れる。そういう「ノイズ」こそが、読者に「この人が書いたんだな」と思わせる要素でした。

AIに書かせること自体は悪くない。ただ、出力されたものを読んで「なんかAIっぽいな」と自分で気づけるかどうか。その目を持つために、この記事のデータが少しでも参考になれば嬉しいです。

📘 AIっぽさから脱出する具体的な方法をもっと知りたい方へ

本記事の実験データをベースに、UI・文章・コードまで含めた「AI同質化」からの脱出方法を体系的にまとめた 「なぜAI生成UIは全部青いのか — 同質化から脱出する技術」 をZennで公開しています。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up