クラウドサーバーで複数のWebサービスを運営していると、ログに見慣れないUser-Agentが増えてきた。GPTBot、ClaudeBot、Bytespider……AI系クローラーだ。せっかくなので1週間分のログを解析し、各ボットの挙動を比較してみた。
環境と対象
個人で運営している下記のようなサービス群(WordPress、Django、Flask、GitLab等)のアクセスログ7日間分(2026/05/30〜06/06)を対象に分析した。全17,630件のレコードを threat_name でラベリングしてある自前のホニーポット系モニタリングシステムのエクスポートデータを使用。
対象ホストの種類は以下のとおり(ドメイン名は伏せる):
- WordPressサイト(公開・Basic認証あり 各1)
- Djangoサイト(公開・2ホスト)
- Flaskサイト(公開)
- GitLabインスタンス(公開)
- Mastodonインスタンス(公開)
- その他(中身なし・Basic認証あり 複数)
全体の内訳
まずはログ全体の threat_name 別件数。
| カテゴリ | 件数 |
|---|---|
| WORDPRESS_SCAN(不正ログイン試行) | 6,288 |
| GPTBot | 4,127 |
| ENV_SCAN(.env窃取狙い) | 1,970 |
| AI_BOT(各種) | 1,095 |
| ZGRAB_SCAN | 630 |
| Bytespider | 466 |
| ClaudeBot | 446 |
| DOCKER_SCAN | 388 |
| DotBot(Moz SEO) | 375 |
| Amazonbot | 346 |
| Applebot | 290 |
| GIT_SCAN | 229 |
| UA_INJECT | 225 |
| AhrefsBot | 169 |
| MASSCAN / NMAP 等 | 〜80 |
| xAI-Bot | 7 |
| PerplexityBot | 7 |
| CCBot | 7 |
| Google-Extended | 2 |
AI学習系クローラー(GPTBot・ClaudeBot・Bytespider・Amazonbot・Applebot・xAI-Bot・CCBot・Google-Extended等)の合計は約7,000件超。WordPress不正ログインと並ぶ最大勢力だった。
AI学習クローラー詳細
GPTBot(OpenAI) — 断然トップ、バースト型
4,127件で全AI系クローラー中1位。
日別件数:
2026-06-04: 2,785件 ← 突出
2026-06-01: 1,330件
2026-05-31: 6件
2026-06-02: 3件
その他: 3件
最大の特徴はバースト型クロール。6月4日だけで週全体の67%が集中している。アクセスパターンを見ると:
/?p=281
/?p=282
/?p=283
...(投稿IDを連番で全件取得)
/?paged=11
/?paged=12
...(ページネーション全件)
/?cat=6&paged=8
/?cat=6&paged=9
...(カテゴリ別も全件)
/?author=2&paged=4
...(著者別も全件)
/?feed=rss2&p=281
/index.php?rest_route=/oembed/1.0/embed&url=...
/index.php?rest_route=/wp/v2/posts/281
1記事につき4〜5リクエスト(ページ本体・RSS・REST API・oEmbed)を送る徹底ぶり。WordPressの全コンテンツを構造ごと吸い上げる設計だと分かる。
まとめ:日常的な巡回ではなく「一定間隔で全量スクレイピング」するモデル。
ClaudeBot(Anthropic) — 礼儀正しい漸進型
446件。週を通じて毎日コンスタントにアクセス。
日別件数:
2026-05-30: 16件
2026-05-31: 81件
2026-06-01: 51件
2026-06-02: 55件
2026-06-03: 55件
2026-06-04: 35件
2026-06-05: 104件
2026-06-06: 49件
アクセスパスの内訳:
/robots.txt 99件
/sitemap.xml 97件
/robots.txt/ 83件
/sitemap.xml/ 81件
(その後、直近の新規投稿を数件のみ取得)
8割以上が robots.txt と sitemap.xml の確認。その後に取得する記事は最新のものに絞られており、既取得コンテンツは再取得しない挙動が読み取れる。差分更新型の設計と推測できる。
まとめ:ルールを守り、差分のみを効率よく取得する漸進型。全量バーストのGPTBotとは対照的。
Bytespider(ByteDance/TikTok) — Django向け偵察型
466件。特徴的なのはDjangoサイトへの偏りだ。
ホスト別件数:
lang.pontalk.com(Django): 275件(59%)
d.pontalk.com(WordPress): 186件(40%)
その他: 5件
アクセスパス TOP5:
/tz_detect/set/ 100件
/static/assets/img/bg.jpeg 36件
/robots.txt 36件
/robots.txt/ 26件
/wp-content/uploads/... 16件
/tz_detect/set/ への100件アクセスが目を引く。これはDjangoのタイムゾーン検出エンドポイントで、サイトの技術スタックを識別するプローブのように見える。WordPressサイトにはない挙動をDjangoサイトで集中的に行っており、フレームワーク固有のエンドポイントを意識したクロールである可能性が高い。
日別では5月30〜31日に急増(340件)後、週後半は落ち着いた。
まとめ:技術スタック偵察型。WordPressよりもDjango/Flaskに関心が高い可能性。
Amazonbot — 地道な継続型
346件、全てWordPressサイト対象。日別では24〜65件と週を通じて安定している。
日別件数:
05-30: 24件
05-31: 48件
06-01: 36件
06-02: 30件
06-03: 48件
06-04: 62件
06-05: 65件
06-06: 33件
REST APIエンドポイント(/index.php?rest_route=/wp/v2/posts/N)を使って記事を取得するパターン。GPTBotほど一気にではなく、毎日少しずつ更新分を取得していく設計と思われる。AlexaないしAlexa後継のAI学習データ収集と推定される。
AI_BOTカテゴリの内訳(注目トピック)
threat_name が AI_BOT に分類された1,095件は実は多様な正体が混在している。
OAI-SearchBot(OpenAI検索ボット)
GPTBotとは別に、OpenAIの検索向けBotが全ホストのrobots.txtを巡回していた。GPTBotが記事取得に特化しているのに対し、こちらは「どのサイトが存在するか」のインデックス更新が目的と見られる。
ChatGPT-User → 実際のユーザー流入
06-01 08:10: ChatGPT-User/1.0 がサイトにアクセス
06-01 08:13: /?utm_source=chatgpt.com からiPhoneユーザーが訪問
06-02 08:14: ChatGPT-User/1.0 が再アクセス
06-02 08:15: /?utm_source=chatgpt.com からAndroidユーザーが訪問
ChatGPTがサイトの情報を参照した後、実際のユーザーがChatGPT経由でアクセスしてきたログが残っていた。AIによる紹介効果が実ログで確認できた事例として興味深い。
xAI-Bot(Grok)
7件のみ。まだ存在感は小さいが確認はできた。
ホスト別傾向
WordPressサイト
AI系クローラーのメインターゲット。GPTBot・Amazonbot・ClaudeBot・Applebot が集中。コンテンツ量が多いほど多くのAI企業から注目される傾向がある。一方でWORDPRESS_SCANも最多(6,288件)で、攻撃と学習が同時に来るのがWordPressの宿命。
Djangoサイト
Bytespiderと PetalBot(Huawei)が集中。フレームワーク固有エンドポイントへの探索があり、技術スタック認識を行っていると推測。
Flaskサイト(IT資格学習サービス)
AhrefsBot(169件)が全てこのサイトの /question/N を巡回。記事・問題数を大幅に増やした後にSEOクローラーの訪問が増加しており、コンテンツ拡充の効果が出ていることの証左とも読める。また ChatGPT-User 経由の実流入もここで発生。
GitLabインスタンス
ClaudeBot(32件)が robots.txt を確認するほか、一部AI_BOTによるGitLab API経由での探索が確認された(/api/v4/projects?search=secret 等)。公開GitLabは要注意。
比較まとめ
| Bot | 件数/週 | 主なターゲット | クロール戦略 | 特徴 |
|---|---|---|---|---|
| GPTBot | 4,127 | WordPress | バースト型全量取得 | 日単位で一気に全コンテンツ収集 |
| ClaudeBot | 446 | WordPress | 漸進型差分取得 | robots.txt重視、差分のみ取得 |
| Bytespider | 466 | Django/WordPress | 技術スタック偵察型 | フレームワーク固有エンドポイント探索 |
| Amazonbot | 346 | WordPress | 継続型少量取得 | 毎日均等、REST API活用 |
| Applebot | 290 | WordPress | 継続型 | 安定したペース |
| OAI-SearchBot | 〜100 | 全ホスト | インデックス更新 | robots.txtのみ、全サイト巡回 |
| xAI-Bot | 7 | Flask | — | 出始め、今後増加予想 |
所感
- GPTBotは容赦ない。週に1〜2回、全コンテンツを一括取得する設計は、小規模サーバーには無視できない負荷になりえる。
- ClaudeBotは対照的に礼儀正しい。robots.txtを確認してから必要最小限だけ取得する設計は好感が持てる。
- Bytespiderはフレームワーク探索が気になる。単純なコンテンツ収集を超えて技術スタック識別を行っている可能性があり、引き続き観察したい。
- ChatGPT経由の実流入は小さいながらも確認できた。AIに言及されることがSEOの新しい形になっていくのかもしれない。
ログ解析を続けることで、各社のクロール戦略の変化も追えるはず。特にBytespiderのデータはまだ蓄積中なので、続報があれば追記したい。
参考:使用データ
- 期間:2026/05/30 15:36 〜 2026/06/06 15:29
- 総レコード数:17,630件
- 収集方法:自前のアクセスログ解析システム(Django/Channels + nginx)