個人開発で「転職DB」というサイトを運営しているのですが、
ある日突然サイトが落ちて、焦って調べたらGPTBotの大量アクセスが原因でした。
「GPTBotって、OpenAIのクローラー?」
そう思いつつログを見てみると、
DDosさながらの連続アクセスでMicroCMSのHobbyプランのデータ容量上限(20GB)に達し、APIが停止されてしまった感じです。
(実際のユーザーより先にBotに来られても困る…)
何が起こったのか
容量が一瞬で20GBに
以下の画像が、停止したときのMicroCMS管理画面(容量のグラフ)です。
容量の推移が異常に跳ね上がっていて、ほぼ瞬間的に20GBを超えました。
GPTBotのアクセスログ
さらにサーバーのログを見ると、
存在しないページにも連続リクエストが飛んできていて、
とにかく挙動が謎すぎる状態に。
普通のクローラーは、
- robots.txtを一応見てくれる
- サイトマップを辿る
など一定のルールでアクセスしてくるものですが、
GPTBotは(現時点では)まるでDDosのようにやってくる印象でした。
対策:robots.txtでブロック
当面、最も手っ取り早い方法はrobots.txtでブロックすることです。
以下を追加するだけで、少なくとも「ブロックしますよ」と明示できるのでおすすめです。
User-agent: GPTBot
Disallow: /*
MicroCMSのHobbyプランのように転送量に上限がある場合は特に要注意です。
宣伝: 転職DB
転職DBは個人ブログやnote、Wantedlyなどに散在する転職体験談を要約・検索して閲覧できるプラットフォームです。
企業ごとの退職者、転職者の評価や転職理由などキャリアを考える上で参考になる情報が集まっています。
興味のある方は、ぜひサイトを検索してみてください。
まとめ
- GPTBotが大量アクセス → MicroCMSの転送量20GB超え → API停止
- 存在しないページへのリクエストも多く、挙動が謎
- robots.txtでブロックするのが一番手っ取り早い対策
個人開発に限らず、小規模のサイトでも似たようなことが起きる可能性は十分あると思います。
「突然サイトが落ちて原因がわからない」という方は、
ぜひ一度GPTBotのアクセスを疑ってみてください。
筆者のX
筆者は主にWeb開発・個人サービス運営系の話題をつぶやいています。
よろしければフォローよろしくお願いします!
bani24884