日本でもスクレイピングの注意点を指摘する記事は多数ありますが、具体的な事例、方針は
- Librahack事件
- 1秒1アクセス
- robots.txt
程度なので海外の事例はないのか?と調べたらやっぱりありました。**ハイライトは罰金約3億円と刑務所約3年です。**スクレイピングをブロックするサービスを提供する会社distil networksの記事「スクレイピングは違法になる?」を事件一覧として、各事件をググって詳細を調べました。箇条書き形式で参考文献もそのまま付け足しています。
- eBay vs Bidder's Edge 1999年12月10日 裁判→示談で解決
- EF Cultural Travel BV vs Explorica 2003年1月28日 裁判→以降アクセス禁止
- Cvent vs Eventbrite 2010年10月15日 裁判→以降アクセス禁止
- Facebook vs Power Ventures 2012年2月16日 裁判→3百万ドル罰金
- AT&T vs Andrew Auernheimer 2014年4月11日 逮捕→禁錮41ヵ月&罰金7.3万ドル
- LinkedIn vs hiQ Labs 2017年6月6日 裁判→アクセス禁止を解除させられる
- まとめ
- 今後の課題
検索結果の内容について事実確認はしておらず、私の翻訳、特に法律用語周りはかなり怪しい上、そもそも法律・裁判ももちろん海外の話です。日付はなるべく裁判の日にしています。
あくまで「こういう事した人がいて、こういう反応をされて、こういうトラブルになった」程度でお楽しみください。
eBay vs Bidder's Edge 1999年12月10日
- Bidder's Edge以下BEは各インターネットオークションのまとめサイト。
- BEはebayを含む各オークションサイトをクローリングしていた。
- ebayは一度クローリングを許可する回答をする。この時に技術的なすり合わせは無い。
- BEのクローリングのペースは1日10万アクセス、全体の1.53%に相当する
- ebayはクローリングの仕様をBEのユーザーがリクエストを送る度にリクエストに基づいたクローリングにしてほしいと要請。BEはこれを拒否。
- その後ebayはBEにebay情報のリスティングを辞めてほしいと連絡する。BEはこれを承諾。BEはBE以外のオークションまとめサイトからebayの情報を取れることを学んでいた。
- ebayはBEが従来通りリスティングを行っていることを動産侵害であるとして書面にて通達
- ebayはその後169のIPアドレスをブロック。BEはプロキシサーバーを使い続けその後もクローリングは続く
- ebayが公訴。数ヶ月後にBEがebayのオークション市場の独占が不当であるとして公訴
- その後に示談で解決
- eBay v. Bidder's Edge - Wikipedia
EF Cultural Travel BV vs Explorica 2003年1月28日
- Explorica社(以下Explorica)とEF Cultural Travel BV社(以下EF)は学生旅行業界のライバル関係
- ExploricaがZefer社に委託しEFのツアー情報をスクレイピングし、自社の相当するツアー価格をそれより低くしていた。
- EFが業界で先行しておりExploricaには多くの元EF社員がいた。ツアーコード等の仕様を分かっており実行の発端となった
- EFがスクレイピングされていることを知り、Zefer社とExploricaをハッキングの咎で告訴
- 結果はハッキングとの主張は棄却するも、今後一切のEFへのアクセスを禁じるとした
- Briefed Case - West Case Update
- EF CULTURAL TRAVEL BV v. ZEFER CORPORATION | FindLaw
Cvent vs Eventbrite 2010年10月15日
- Cvent社とEventbrite社はイベンターをサポートする会社
- Cventは世界各地の約10万のホテル、会議センター、特別会議場のデータベースを作成し、画像などの会場に関する詳細、会議室の容量、会場のアメニティとサービスなどデータを作成
- Eventbriteがスクレイピングを行い、コピーされたとCventは3百万ドルの著作権訴訟
- 目立たないリンクにスクレイピング禁止の条文があるも、提示方法としては不十分というコメントが裁判で出る
- 今後一切アクセス、コピーを行わないという同意のみで和解する
- Cvent, Eventbrite agree to end $3M copyright lawsuit - Washington Business Journal
- Cvent sues Eventbrite for alleged webscraping and unauthorized access - Lexology
Facebook vs Power Ventures 2012年2月16日
- Power Ventures社以下(Power)はpower.comという各ソーシャルメディアFacebook, LinkedIn, Twitter, Myspace, Yahooに散らばる各ユーザー情報を人間単位に統合するサービスを展開
- power.comはスクレイピングのためにfacebookユーザーにfacebookのメールアドレスとパスワードを入力するように求めた
- FacebookはFacebook Connect(いわゆる"FacebookのIDでログイン"機能)を使えばユーザー情報の取得と利用を規約の範囲内で認めているが、power.comはスクレイピングにこだわりFacebook Connectを利用しなかった
- Facebookが告訴、今後のアクセス禁止と損害賠償3百万ドルを勝ち取る
- Facebook Awarded More Than $3M In Damages, Permanent Injunction In Power Ventures Lawsuit – Adweek
- Facebook, Inc. v. Power Ventures, Inc. - Wikipedia
AT&T vs Andrew Auernheimer 2014年4月11日
- Andrew Auernheimerはweevで知られるハッカー
- AT&Tの回線契約者がiPadからAT&Tのサイトに訪れると、固有のSIMカードナンバーがurlクエリに付与され、サイトはそのクエリを元に契約者と判断し、メールアドレスを画面に表示するという脆弱な仕組みだった
- Auernheimerはurlクエリの総当たり攻撃によりSimカードナンバーとメールアドレスの組み合わせを114,000通り得る
- 逮捕され41か月の懲役と73000ドルの罰金
- weev - Wikipedia
- Security Researchers Cry Foul Over Conviction Of AT&T iPad Hacker
LinkedIn vs hiQ Labs 2017年6月6日
- hiQ LabsはLinkedInをスクレイピングし、LinkedInの活動から仕事を辞めそうな社員を推定し、雇用主に通知するサービスを展開していた
- LinkedInはhiQにスクレイピングを辞めるよう通達。ユーザーのプライバシーを侵害しているのと利用規約違反のため
- 加えて専門家を雇いhiQ Labsからのアクセスをブロック。
- 加えてLinkedInc上のhiQ Labsページを閉鎖
- hiQ Labsはアクセスのブロックは不当だとして告訴
- LinkedInはhiQ Labsのブロックを解除せよとの判決が下り勝訴
- LinkedInはユーザーのためにこの戦いを諦めないとコメント
- LinkedIn, HiQ spar at Ninth Circuit in data scraping case | MLex Market Insight
- Microsoft ordered to let third parties scrape LinkedIn data - The Verge
- hiQ v. LinkedIn and the Fight Against Data Scraping Bots - Fordham Intellectual Property, Media & Entertainment Law Journal
- EPIC - hiQ Labs, Inc. v. LinkedIn Corp.
まとめ
- スクレイピングという技術よりもデータの使い方でトラブルになっている
- アクセス間隔とアクセス負荷については最古のebayのみ
- 個人的に悪質さで並べるならWeev > Eventbrite > Explorica > hiQ > Power > ebay
- 判決の重さで並べると Weev > Power > ebay > Eventbrite = Explorica > hiQ
- Weevのはスクレイピング?urlを使っただけのブルートフォースでは
- 判決≠悪質性でないので多種多様で翻訳楽しめました。判決次第ですね
- 最後のhiQのアクセス拒否されて逆に裁判仕掛けるところはアメリカ気質を垣間見た気がしました
今後の課題
スクレイピングのアクセス過多で迷惑をかけることはあるか調べたかったので、半分ゴールといったところです。自分でサーバ立てて大量のアクセスをして実験しようと思います。高速スクレイピングを代行してくれる有料APIを公開しています。こちら使って実験予定です。よろしければご意見ください。
以下の記事特に参考にさせて頂きました
- Webスクレイピングの注意事項一覧
- Webスクレイピングの法律周りの話をしよう!
- Python Webスクレイピング テクニック集「取得できない値は無い」JavaScript対応@追記あり6/12
- Webスクレイピングマスターが教える「スクレイピング対策」@09/16追記
- Python Webスクレイピング 実践入門
- Python3系で Webスクレイピング 入門
- 【毎秒1万リクエスト!?】Go言語で始める爆速Webスクレイピング【Golang】
- (随時更新) スクレイピングハッカソンの為の情報リスト
翻訳ミスの指摘、関連した情報のご提供など是非お願いします。ありがとうございました。