クラウドフレアの件についてまとめる

Posted at 2025-11-21

こんにちは！
クラウドフレアから、この前のインシデントの解説が出たのでまとめようと思います！

原因

障害の直接的な原因は、Cloudflareの「Bot Management機能」で使用されるfeature file（機能構成ファイル）を生成する過程に不具合が生じ、当該ファイルが想定より大幅に肥大化し、ネットワーク上の複数プロキシ／モジュールに影響を及ぼしたことです。

Cloudflareでは、クリックハウス（ClickHouse）データベースのクエリが、「http_requests_features」などのテーブルからname, typeを取得する処理を行っており、これがBot Managementのfeature file生成ロジックとして用いられていました
そのクエリにおいて、データベース権限の変更が段階的に展開されたことで、「default」データベースだけを対象と想定していたところ、別データベース（r0）由来の重複列が返されるようになりました。つまり、クエリ結果に予期せぬ重複が出現
その結果、feature file生成ロジックが重複を含んだ多数の “feature（特徴量）” 行を含むファイルを出力。このファイルサイズ／行数ともに想定を大幅に超え、Bot Managementモジュールが “約200” という上限数を超える “約60→超過” といった状況で動作を継続
生成されたファイルは、世界中のCloudflareネットワークマシンへ配布され、プロキシ／ルーティングモジュールがこのファイルを読み込んでいたため、複数マシンでプロキシ処理が失敗する状態に陥りました
初期にはCloudflare側も「ハイパースケールなDDoS攻撃かもしれない」という仮説を持っていましたが、実際には設定とプロセスの内部不具合であることを特定しました

Cloudflare公式ブログによると以下のような手順で対応が行われました。

Cloudflareはこの障害を重く受け止め、再発防止に向けた改善策を公表しています。