Help us understand the problem. What is going on with this article?

スクレイピングの倫理①海外のトラブル事例

More than 1 year has passed since last update.

日本でもスクレイピングの注意点を指摘する記事は多数ありますが、具体的な事例、方針は

  • Librahack事件
  • 1秒1アクセス
  • robots.txt

 程度なので海外の事例はないのか?と調べたらやっぱりありました。ハイライトは罰金約3億円と刑務所約3年です。スクレイピングをブロックするサービスを提供する会社distil networksの記事「スクレイピングは違法になる?」を事件一覧として、各事件をググって詳細を調べました。箇条書き形式で参考文献もそのまま付け足しています。

 検索結果の内容について事実確認はしておらず、私の翻訳、特に法律用語周りはかなり怪しい上、そもそも法律・裁判ももちろん海外の話です。日付はなるべく裁判の日にしています。
あくまで「こういう事した人がいて、こういう反応をされて、こういうトラブルになった」程度でお楽しみください。

eBay vs Bidder's Edge 1999年12月10日

  • Bidder's Edge以下BEは各インターネットオークションのまとめサイト。
  • BEはebayを含む各オークションサイトをクローリングしていた。
  • ebayは一度クローリングを許可する回答をする。この時に技術的なすり合わせは無い。
  • BEのクローリングのペースは1日10万アクセス、全体の1.53%に相当する
  • ebayはクローリングの仕様をBEのユーザーがリクエストを送る度にリクエストに基づいたクローリングにしてほしいと要請。BEはこれを拒否。
  • その後ebayはBEにebay情報のリスティングを辞めてほしいと連絡する。BEはこれを承諾。BEはBE以外のオークションまとめサイトからebayの情報を取れることを学んでいた。
  • ebayはBEが従来通りリスティングを行っていることを動産侵害であるとして書面にて通達
  • ebayはその後169のIPアドレスをブロック。BEはプロキシサーバーを使い続けその後もクローリングは続く
  • ebayが公訴。数ヶ月後にBEがebayのオークション市場の独占が不当であるとして公訴
  • その後に示談で解決
  • eBay v. Bidder's Edge - Wikipedia

EF Cultural Travel BV vs Explorica 2003年1月28日

  • Explorica社(以下Explorica)とEF Cultural Travel BV社(以下EF)は学生旅行業界のライバル関係
  • ExploricaがZefer社に委託しEFのツアー情報をスクレイピングし、自社の相当するツアー価格をそれより低くしていた。
  • EFが業界で先行しておりExploricaには多くの元EF社員がいた。ツアーコード等の仕様を分かっており実行の発端となった
  • EFがスクレイピングされていることを知り、Zefer社とExploricaをハッキングの咎で告訴
  • 結果はハッキングとの主張は棄却するも、今後一切のEFへのアクセスを禁じるとした
  • Briefed Case - West Case Update
  • EF CULTURAL TRAVEL BV v. ZEFER CORPORATION | FindLaw

Cvent vs Eventbrite 2010年10月15日

  • Cvent社とEventbrite社はイベンターをサポートする会社
  • Cventは世界各地の約10万のホテル、会議センター、特別会議場のデータベースを作成し、画像などの会場に関する詳細、会議室の容量、会場のアメニティとサービスなどデータを作成
  • Eventbriteがスクレイピングを行い、コピーされたとCventは3百万ドルの著作権訴訟
  • 目立たないリンクにスクレイピング禁止の条文があるも、提示方法としては不十分というコメントが裁判で出る
  • 今後一切アクセス、コピーを行わないという同意のみで和解する
  • Cvent, Eventbrite agree to end $3M copyright lawsuit - Washington Business Journal
  • Cvent sues Eventbrite for alleged webscraping and unauthorized access - Lexology

Facebook vs Power Ventures 2012年2月16日

  • Power Ventures社以下(Power)はpower.comという各ソーシャルメディアFacebook, LinkedIn, Twitter, Myspace, Yahooに散らばる各ユーザー情報を人間単位に統合するサービスを展開
  • power.comはスクレイピングのためにfacebookユーザーにfacebookのメールアドレスとパスワードを入力するように求めた
  • FacebookはFacebook Connect(いわゆる"FacebookのIDでログイン"機能)を使えばユーザー情報の取得と利用を規約の範囲内で認めているが、power.comはスクレイピングにこだわりFacebook Connectを利用しなかった
  • Facebookが告訴、今後のアクセス禁止と損害賠償3百万ドルを勝ち取る
  • Facebook Awarded More Than $3M In Damages, Permanent Injunction In Power Ventures Lawsuit – Adweek
  • Facebook, Inc. v. Power Ventures, Inc. - Wikipedia

AT&T vs Andrew Auernheimer 2014年4月11日

  • Andrew Auernheimerはweevで知られるハッカー
  • AT&Tの回線契約者がiPadからAT&Tのサイトに訪れると、固有のSIMカードナンバーがurlクエリに付与され、サイトはそのクエリを元に契約者と判断し、メールアドレスを画面に表示するという脆弱な仕組みだった
  • Auernheimerはurlクエリの総当たり攻撃によりSimカードナンバーとメールアドレスの組み合わせを114,000通り得る
  • 逮捕され41か月の懲役と73000ドルの罰金
  • weev - Wikipedia
  • Security Researchers Cry Foul Over Conviction Of AT&T iPad Hacker

LinkedIn vs hiQ Labs 2017年6月6日

まとめ

  • スクレイピングという技術よりもデータの使い方でトラブルになっている
  • アクセス間隔とアクセス負荷については最古のebayのみ
  • 個人的に悪質さで並べるならWeev > Eventbrite > Explorica > hiQ > Power > ebay
  • 判決の重さで並べると Weev > Power > ebay > Eventbrite = Explorica > hiQ
  • Weevのはスクレイピング?urlを使っただけのブルートフォースでは
  • 判決≠悪質性でないので多種多様で翻訳楽しめました。判決次第ですね
  • 最後のhiQのアクセス拒否されて逆に裁判仕掛けるところはアメリカ気質を垣間見た気がしました

今後の課題

 スクレイピングのアクセス過多で迷惑をかけることはあるか調べたかったので、半分ゴールといったところです。自分でサーバ立てて大量のアクセスをして実験しようと思います。高速スクレイピングを代行してくれる有料APIを公開しています。こちら使って実験予定です。よろしければご意見ください。

以下の記事特に参考にさせて頂きました

翻訳ミスの指摘、関連した情報のご提供など是非お願いします。ありがとうございました。

umihico
皆様のポートフォリオサイトを収集し運営しています。 https://portfoliohub.umihi.co
fiveneeds
酒 x ITで、お酒業界に風穴を開けるベンチャー企業です。
http://www.fiveneeds.co.jp/
Why not register and get more from Qiita?
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away