概要
Webの集客をGAで監視していたところ、異様なトラフィックの増加が見られたので、スクレイピングされてるのでは…?と、対策することになったお話です。
Headless Chromeだけ弾く、とかいろいろ考えましたが、調べると現実的ではなさそうで、まずは、WAFで止めましょうという流れになりました。
結果
いくつかスクレイピングしてるだろう不届き者のIPを発見し、ブロックしてさしあげました。
やった処理は以下の通りです。
- 一定時間のアクセスが多すぎるIPを一時的に弾く
- BlackリストにいれたIPを弾く
- Whiteリストに入れたIPはBlackリストに引っかからないようにする
以下の図は、PV数を時間毎に表示したものですが、対策後の山が僅かに小さくなっていること、気づけますでしょうか?
(分母がそれなりに大きいので差分が分かりづらいですが)
WAF(Web Application Firewall)
WAF(ワフ)は、Webアプリケーションの脆弱性を狙った攻撃からWebサイトを保護するセキュリティ対策です。
Webサーバーの前段に設置して通信を解析し、不正なアクセスを弾きます。
AWS WAF
設置の仕方としては以下の設置方法があります。
①Cloud Frontの前段に設置して、Cloud Frontへのアクセスを監視する
②Cloud FrontとELB(ALB)の間に設置して、Cloud FrontからELBのアクセスを監視する
③Route53とELB(ALB)の間に設置して、Route53からELBのアクセスを監視する
ELBと同様にAPI Gatewayにも適用できます。
構成
実装① 一定時間のアクセスが多すぎるIPをブロックする
AWSのコンソールを開いて、WAFと検索すると、「WAF & Shield」というページが見つかるはずです。
まず、最初にやることなのですが…
今回弾きたい対象に、cssやjsなど、Asset周りを含めるつもりはありません。
なので、その設定をおこなえるように、正規表現をあらかじめ作成しておきます。
名前は分かりやすいものをつけて、弾きたかった/image/``/fonts/
/assets/
を含めてくれるような正規表現を記載すれば完了です。
Web ACLsページからACLの新規作成に進みます。
※ACL: Access Control List --> IPに対してのルールをまとめたグループみたいなものです。
名前を入力します。名前を入れると自動的にCloudWatchのメトリクス名が入力されます。
※メトリクスも説明しておくと、CloudWatchはいくつもの情報の点を集積させてログを残していく仕組みなのですが、その点情報のグループにあたるものがメトリクスだと考えてもらえばいいかと。
リソースタイプの項目でCloudFrontに対して設置するのか、ELBまたはAPIGatewayに対して設置するのかを選択できます。
最初に実装したいのは、「一定時間のアクセスの多いIPを弾く」処理です。
「Add my own rules and rule goups」をまずクリックします。
IPListを使う処理ではないので「Rule builder」を選択します。
「Type」は「Rate-based rule」にします。
こうすることで、5分間のアクセスの数を設定することができます。
下段の詳細設定に許可するアクセス数を入力するだけです。
※100から設定できます。
詳細設定にあるラジオボックス。
これが以外と重要なのですが、「Consider all request」を選択してしまうと、すべてのIPに対してこのルールを適用してしまうことになります。
冒頭にも書きましたが、Asset周りのアクセスを同時にカウントして欲しくはないですよね。
ですので、「Only consider requests」を選択します。
そして、その次の段にでてくる設定で、正規表現に一致しないという条件を入れ、作った正規表現のパターンセットを選択します。
最後に、この条件に合う(五分間に指定した回数以上のアクセスがあった)場合にブロックするのか、またはカウントするだけなのかを選択すれば設定完了です。
実装の結果
でてくるでてくる。不届き者達。
最初びっくりさせられたのは5分間どころか10秒で500アクセスぐらいしてきてたIPがあったり。
(逆によく耐えてたな…サーバー)
ブロックしたメトリックス(こちらもWAFのACLsのダッシュボード)を確認すると、どうやら同じIPが、順番にページを叩いていっているのが見える状況……
上手くいってるようにみえますが、ここで、もう一つ課題があります。
会社によっては同じルーターから外部にアクセスする場合が多いため、同じ場所の複数の人間が同時間にアクセスしてもこのルールに引っかかってしまう場合があるのです。
なので、あまり厳しい回数制限はできません。
そんなこんなで新たに以下の実装を加えるわけです。
- あからさまなクローラーはBlackリストへ
- 顧客になりそうなIPはWhiteリストへ
- 検索エンジン関連のクローラーはWhiteリストへ
実装② Blackリスト/Whiteリストの作成
まずは、IPがどこのものか調べます。
BlockされたIPを見て、これはAWSのサーバーだとか、これは某企業のサーバーだとか、仕分けします。
ページを順番に叩いていっている、サーバーっぽいIPは、Blackへ登録します。
名前をつけて、対象としたいIPを改行しながら追加していけばリスト完成です。
Whiteリストも同様の方法で作成します。
再度、Web ACLsのページに入り、Rulesからルールの追加をします。
今回は、IPリストを使うので、IPsetを選択します。
Blackリストであれば、IP setに先ほど作ったBlackリストのセットを選択し、Blockに。
Whiteリストであれば、Whiteリストのセットを選択し、Allowを選択します。
そして、ルールの優先度を
Whiteリスト → Blackリスト → 一定時間ルール
にすれば完成です。
実装の結果
Blackリストに入れたIPがしつこくアタックしてくるのが良くみえ、とても愉快な気分になりました。
実装してみて
たまに人力でIPを確認してやらないといけないので(ルールに引っかかってブロックされたものがあればメールで飛ばすようにしてますが)運用に少しだけ負荷がかかりますが、大事なデータを簡単にとられないようにするという目的はある程度達せられたのではないかなという感じです。