3
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

「なんとなくAIっぽい」の正体を180本の記事で特定した

3
Last updated at Posted at 2026-03-24

「これ、AIでしょ?」— その直感、説明できますか?

最近、記事やSNSの投稿を読んでいて「あ、これAIが書いたな」と感じる瞬間が増えました。

でも「じゃあ何がAIっぽいの?」と聞かれると、意外と答えに詰まりませんか?

「なんか丁寧すぎる」「構成が綺麗すぎる」——ふわっとした感覚はあるけど、具体的にどの特徴がAIっぽさを生んでいるのかを説明できる人は少ないはずです。

そこで、実際に 6つのLLM(大規模言語モデル)で10テーマ × 3試行 = 180本の日本語記事を生成し、14個の指標で定量分析してみました。

結果、「AIっぽさ」の正体は3つの軸にほぼ集約されることがわかりました。

実験設計: 180本の記事をどう作ったか

使用モデル

商用モデルとOSS(オープンソース)モデルを混ぜて、計6モデルを用意しました。

モデル 種別 パラメータ数
GPT-4o 商用 非公開
Claude Sonnet 商用 非公開
Qwen 3.5 OSS 4B
Qwen 3.5 OSS 9B
Swallow OSS 20B
Llama 3.2 OSS 1B

商用2モデル vs OSS4モデルという構図です。Swallowは日本語に特化して学習されたモデルで、Llama 3.2(1B)は最小パラメータの比較対象として入れています。

テーマと試行回数

プログラミング、キャリア、健康、教育など10テーマを設定し、各モデル × 各テーマで3回ずつ生成。合計 6 × 10 × 3 = 180本

実験の詳細な手法とデータは論文として公開しています。
📄 AI Text Slop in Japanese: Quantifying Distributional Convergence Across Six Language Models (Zenodo)

計測指標

14個の指標で各記事を分析しました。主なものを挙げると:

  • ai_freq_words: AI頻出語(「重要です」「不可欠です」「〜と言えるでしょう」等)の出現数
  • headings: 見出し(#####)の数
  • list_markers: 箇条書きの数
  • bold_count: 太字の使用回数
  • boilerplate_conclusion: 「いかがでしたか?」的な定型まとめの有無
  • three_set: 「3つのポイント」パターンの出現数
  • sent_length_cv: 文長の変動係数(文の長さがどれだけバラつくか)
  • hedging: 断定を避ける表現(「〜かもしれません」等)の数

結果: AIっぽさの正体は3つの軸に集約された

軸1: 語彙パターン(一番バレやすい)

AI頻出語の平均出現数(ai_freq_words):

Claude Sonnet : ████████████████████████████████████ 3.43
GPT-4o        : ██████████████████████████████████   3.33
Qwen 3.5 (4B) : ████████████████████████████         2.70
Qwen 3.5 (9B) : ████████████████████████             2.30
Llama 3.2 (1B): ████████████████████                 1.83
Swallow (20B) : █████████                            0.80

ClaudeとGPT-4oがぶっちぎりで多いです。

※ちなみにこのグラフはClaude Sonnetに図形化してもらいました。自分のAIっぽさを自分で可視化させられるAI、なかなかシュールです。

「〜と言えるでしょう」「重要です」「不可欠です」——これらの表現、人間はそこまで連発しません。特に技術記事で「不可欠です」を1記事に3回も使う人はなかなかいないですよね。

なぜ商用モデルほど多いのか?

それは RLHF(Reinforcement Learning from Human Feedback)の影響です。RLHFとは、人間のフィードバックをもとにモデルの出力を調整する学習手法のこと。「丁寧で分かりやすい文章」を高く評価するフィードバックが積み重なった結果、特定の「丁寧フレーズ」が過剰に強化されてしまいました。

いわば、褒められすぎて敬語が暴走した新入社員のようなものです。

軸2: 構造パターン

見出し数(headings)の平均:

Claude Sonnet : ██████████████████████████████████████████████████ 14.73
GPT-4o        : █████████████████████████████████                  9.90
Qwen 3.5 (9B) : ██████████████████████                             6.57
Qwen 3.5 (4B) : █████████████████████                              6.53
Swallow (20B) : ████████████████████                               6.27

箇条書き数(list_markers)の平均:

Claude Sonnet : ██████████████████████████████████████████████████ 14.60
Swallow (20B) : ██████████████████████████████████                 10.13
GPT-4o        : ██████████████████████████                          7.60
Qwen 3.5 (4B) : █████                                              1.53
Qwen 3.5 (9B) : ████                                               1.33

Claudeの構造パターンは際立っています。見出し14.7個、箇条書き14.6個。これは1本の記事の中に見出しと箇条書きが約15個ずつ入っている計算です。

Claudeで記事を生成すると、毎回ほぼ同じレイアウトになります。「導入 → ポイント1(箇条書き) → ポイント2(箇条書き) → ポイント3(箇条書き) → まとめ」。この金太郎飴感が「AIっぽさ」の大きな要因です。

また boilerplate_conclusion(定型まとめ)も見逃せません:

Swallow (20B) : 1.167
Claude Sonnet : 1.033
GPT-4o        : 0.800
Qwen 3.5 (4B) : 0.567

記事の末尾に「いかがでしたか?」「ぜひ参考にしてみてください」的な定型フレーズがどれだけ出るか。Swallowが意外にもトップですが、この話は後述します。

軸3: リズムパターン

文長の変動係数(sent_length_cv):

Llama 3.2 (1B): 1.075
Swallow (20B) : 0.757
Qwen 3.5 (9B) : 0.593
Claude Sonnet : 0.562

sent_length_cvは「文の長さがどれだけバラつくか」を示す指標です。値が大きいほど、短い文と長い文が混在していることになります。

Llama 3.2(1B)は例外的にバラつきが大きいですが、これはモデルサイズが小さすぎて出力が不安定なだけ。それ以外のモデルは 0.55〜0.76 の範囲に収まっています。

人間の文章はもっとバラつきます。短い一文でバシッと言い切ったと思ったら、次の段落で長々と補足する。そういう「揺れ」がAIには少ない。

three_set(「3つのポイント」パターン)も全モデルで1.0以上:

Claude Sonnet : 1.333
GPT-4o        : 1.133
Qwen 3.5 (4B) : 1.033

「ポイントは3つあります」——便利な構成ですが、AIはこれを使いすぎます。毎回3つにまとめる癖があるんです。

意外な発見3つ

発見①: 商用モデルほど「AIっぽい」

直感に反する結果かもしれません。お金を払って使うGPT-4oやClaudeのほうが、無料のOSSモデルより「AIっぽい」文章を書くのです。

理由はRLHFにあります。商用モデルはユーザー満足度を最大化するために大量のフィードバックで調整されています。その結果、「丁寧」「分かりやすい」「構造化されている」という方向に均質化が進み、かえってパターンが読みやすくなってしまいました。

皮肉な話です。良いモデルを作ろうとした努力が、検出しやすさにつながっている。

発見②: Swallowパラドックス

Swallowは日本語に特化した20Bパラメータのモデルです。日本語が得意なら、日本語のAI臭も強くなるのでは?——と思いきや、AI頻出語はたったの0.80で全モデル最少でした。

ところが boilerplate_conclusion は 1.167でトップ。つまり「重要です」「不可欠です」みたいなAI語は使わないのに、記事の締め方だけやたら定型的。

語彙レベルでは人間に近いのに、構造レベルでバレるという面白いパターンです。日本語の自然さと、文章構成の多様性は別の能力なのかもしれません。

発見③: 人間の文章はもっとバラバラ

今回の実験で最も印象的だったのは、AIの「安定感」です。

同じテーマで3回生成しても、AIはほぼ同じ骨格の記事を出力します。見出しの数、箇条書きの位置、まとめの書き方——テンプレートのように一定。

一方、人間が同じテーマで3本書いたら、毎回構成が変わります。ある日は結論から書き、ある日はエピソードから入り、ある日は箇条書きゼロで全部地の文。

この「バラバラさ」こそが人間の文章の特徴であり、AIとの最大の違いです。逆に言えば、AIの文章が「っぽく」見えるのは、毎回同じパターンで書いてしまうからなんです。

じゃあどうすれば「AIっぽく」ならない?

ここまでの分析を踏まえて、AI生成テキストの「っぽさ」を消すための具体的な方法をまとめます。

一次情報を入れる。

体験談、失敗談、固有名詞。「先週、本番デプロイで3時間ハマった」みたいな話はAIが生成できません。一次情報が入った瞬間、記事の説得力と「人間味」が一気に上がります。

構造を崩す。

「3つのポイント」をやめてみる。いきなり結論から入る。途中で脱線して戻ってくる。見出しの数を減らす。Claudeが14個つける見出しを5個にする。それだけで印象が変わります。

語彙を入れ替える。

「重要です」と書きそうになったら、具体的に何が重要なのかを書く。「パフォーマンスチューニングは重要です」→「レスポンスが200ms遅くなるとCVRが7%落ちる、という自社データがある」。抽象から具体へ。

文の長さにバラつきを持たせる。

短文。

からの、ちょっと長めの補足説明を入れて文章にリズムの波を作ると、読み心地がぐっと変わります。AIは文の長さを均一にしがちなので、意図的に崩すだけで効果があります。

ただし、これは「AIを使うな」という話ではありません。AIで下書きを作って、人間が崩す。これが2025年の現実的なワークフローです。問題は「AIが書いたものをそのまま出すこと」であって、道具として使うこと自体ではありません。

まとめ

180本の記事を分析してわかったのは、「AIっぽさ」の正体が語彙・構造・リズムの3つの均質化だということでした。

そして最もAIっぽい文章を書くのが、最もお金のかかる商用モデルだったという皮肉。RLHFで「良い文章」を追求した結果、みんな同じ「良い文章」になってしまった。

人間の文章が持つ強みは「バラバラさ」です。毎回違う構成で書く、脱線する、短文と長文を混ぜる、体験を入れる。そういう「ノイズ」こそが、読者に「この人が書いたんだな」と思わせる要素でした。

AIに書かせること自体は悪くない。ただ、出力されたものを読んで「なんかAIっぽいな」と自分で気づけるかどうか。その目を持つために、この記事のデータが少しでも参考になれば嬉しいです。


📘 AIっぽさから脱出する具体的な方法をもっと知りたい方へ

本記事の実験データをベースに、UI・文章・コードまで含めた「AI同質化」からの脱出方法を体系的にまとめた 「なぜAI生成UIは全部青いのか — 同質化から脱出する技術」 をZennで公開しています。

3
2
3

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
3
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?