Webスクレイピングにおける「サーバーへの負荷」はどのような基準か?
Discussion
Closed
##質問概要
Webスクレイピングを行う上で「サーバーに過度な負担をかける行為を禁止する」という旨の規約があります。では「過度な負担」とは具体的にはどれくらいの負荷を指すのでしょうか?また、リクエストにインターバルを設ける場合どれほどの時間にセットするのが良いでしょうか?
サーバー管理やスクレイピングに関わっている方々のご意見を伺いたいです。
##やりたいこと
私が現在やりたいと考えているスクレイピングは
・毎日4,000件ほどのリクエスト
・夕方から深夜にかけての6~8時間で処理する
・対象は大規模なサービスを運営しているところのサーバー
・リクエストのインターバルは5~6秒に設定する(予定)
##調べたこと
具体的な基準を探しているときにこのような記事を見つけました。そこには、過去に事件となったスクレイピングでは1秒に1回のリクエストを行っていたと言う記述があります。少なくともこれより負荷の少ない動作にするのが良いのだろうと思いました。
ただ、Librahack事件は一つの目安になると思われます。この事件では、逮捕された者が1秒に1回の頻度で1日2000回のスクレイピングを試みた点について、サーバに負荷をかけたとまではいえないとの見方もあります。
(スクレイピングは違法?3つの法律問題と対応策を弁護士が5分で解説:https://topcourt-law.com/internet_security/scraping-illegal#i-11 )