More than 5 years have passed since last update.

スクレイピングしてくる不届きものを、AWS WAFを使ってブロックする話

Posted at 2020-04-30

概要

Webの集客をGAで監視していたところ、異様なトラフィックの増加が見られたので、スクレイピングされてるのでは…？と、対策することになったお話です。

Headless Chromeだけ弾く、とかいろいろ考えましたが、調べると現実的ではなさそうで、まずは、WAFで止めましょうという流れになりました。

結果

いくつかスクレイピングしてるだろう不届き者のIPを発見し、ブロックしてさしあげました。

やった処理は以下の通りです。

一定時間のアクセスが多すぎるIPを一時的に弾く
BlackリストにいれたIPを弾く
Whiteリストに入れたIPはBlackリストに引っかからないようにする

以下の図は、PV数を時間毎に表示したものですが、対策後の山が僅かに小さくなっていること、気づけますでしょうか？
（分母がそれなりに大きいので差分が分かりづらいですが）

WAF（Web Application Firewall）

WAF（ワフ）は、Webアプリケーションの脆弱性を狙った攻撃からWebサイトを保護するセキュリティ対策です。
Webサーバーの前段に設置して通信を解析し、不正なアクセスを弾きます。

AWS WAF

設置の仕方としては以下の設置方法があります。
①Cloud Frontの前段に設置して、Cloud Frontへのアクセスを監視する

②Cloud FrontとELB(ALB)の間に設置して、Cloud FrontからELBのアクセスを監視する

③Route53とELB(ALB)の間に設置して、Route53からELBのアクセスを監視する

ELBと同様にAPI Gatewayにも適用できます。

構成

今回のざっくりした構成はこんな感じです。

実装① 一定時間のアクセスが多すぎるIPをブロックする

AWSのコンソールを開いて、WAFと検索すると、「WAF & Shield」というページが見つかるはずです。

まず、最初にやることなのですが…
今回弾きたい対象に、cssやjsなど、Asset周りを含めるつもりはありません。
なので、その設定をおこなえるように、正規表現をあらかじめ作成しておきます。

正規表現のページから新規作成を行って行きます。

名前は分かりやすいものをつけて、弾きたかった/image/``/fonts/ /assets/を含めてくれるような正規表現を記載すれば完了です。

Web ACLsページからACLの新規作成に進みます。
※ACL: Access Control List --> IPに対してのルールをまとめたグループみたいなものです。

名前を入力します。名前を入れると自動的にCloudWatchのメトリクス名が入力されます。
※メトリクスも説明しておくと、CloudWatchはいくつもの情報の点を集積させてログを残していく仕組みなのですが、その点情報のグループにあたるものがメトリクスだと考えてもらえばいいかと。

リソースタイプの項目でCloudFrontに対して設置するのか、ELBまたはAPIGatewayに対して設置するのかを選択できます。

下段で、WAFに紐付けたいリソースを紐付けします。

次のページでルールを設定できます。

最初に実装したいのは、「一定時間のアクセスの多いIPを弾く」処理です。
「Add my own rules and rule goups」をまずクリックします。

IPListを使う処理ではないので「Rule builder」を選択します。

「Type」は「Rate-based rule」にします。
こうすることで、5分間のアクセスの数を設定することができます。
下段の詳細設定に許可するアクセス数を入力するだけです。
※100から設定できます。

詳細設定にあるラジオボックス。
これが以外と重要なのですが、「Consider all request」を選択してしまうと、すべてのIPに対してこのルールを適用してしまうことになります。
冒頭にも書きましたが、Asset周りのアクセスを同時にカウントして欲しくはないですよね。
ですので、「Only consider requests」を選択します。