Webスクレイピングは、Web上の情報を自動的に収集・整理するための強力な技術である。
市場調査、価格比較、研究用途、そして近年では生成AI(LLM)の学習データ収集など、活用範囲は急速に広がっている。
一方で、スクレイピングは法的・倫理的な境界線を一歩誤ると深刻なトラブルに直結する技術でもある。「技術的に可能」なことと、「許される」ことは決して同義ではない。
本記事では、Ryan Mitchell 著 Web Scraping with Python などの定評ある知見を踏まえつつ、
2025年時点での最新の法制度・判例・実務上の注意点を整理し、安全にスクレイピングを行うための指針を示す。
※本記事は教育目的であり、法的助言ではない。具体的な案件については専門の弁護士に相談されたい。
1. 知的財産権の基本と「例外の例外」
スクレイピングで最も問題になりやすいのが著作権である。Web上の文章・画像・コードの多くは、著作権によって保護されている。
「事実」と「表現」の区別
著作権法の基本原則として、事実そのものには著作権が及ばない。
-
Feist判決(1991年、米国)
電話番号の羅列には創作性がないとして著作権を否定。
「汗水の理論(sweat of the brow)」を否定した重要判例である。
つまり、「東京の今日の気温は15度」という事実には著作権がないが、その事実を独自の表現や構成で記述した文章には著作権が発生する。
日本:著作権法第30条の4(情報解析例外)
日本の著作権法は、国際的に見ても機械学習やデータ分析に比較的寛容だと評価されている。第30条の4では、「情報解析」を目的とする場合、原則として著作権者の許諾なく利用できると定められている。
しかし、ここで重要なのがただし書きである。
「例外の例外」に注意
次のようなケースは、情報解析例外の対象外となる。
- 解析用として収集したデータそのものを販売し、元の市場と競合する場合
- 新聞記事を収集し、そのまま読める形で公開・配信する場合
(目的が「解析」ではなく「鑑賞・享受」と判断される)
つまり、「解析のために使う」ことと「読ませる・再配布する」ことは明確に区別される。
海外の動向
-
米国
フェアユース(Fair Use)に基づき、用途・影響・変形性などを総合的に判断する。事例ごとの判断となるため、予測が難しい。 -
EU
TDM(テキスト&データマイニング)例外が存在するが、権利者が robots.txt などで明示的に拒否(オプトアウト) した場合は収集不可。
2. サーバー負荷と「業務妨害」のリスク
スクレイピングが問題になるのは著作権だけではない。アクセスの頻度や方法によっては、刑事・民事の責任を問われる。
英米法:動産不法侵入(Trespass to Chattels)
他人のサーバーという「財産」に不当な負荷をかける行為を禁止する考え方である。
-
eBay v. Bidder's Edge(2000年)
1日10万件規模のリクエストを送信した行為が、システムへの不法侵入として差止めを認められた。 -
Intel v. Hamidi(2003年)
「実害がない限り成立しない」との判断が示され、単なるアクセスだけでは不法侵入に当たらないとの見解が有力になった。
日本:偽計業務妨害罪
岡崎市立中央図書館事件(2010年) は、日本で最も有名な事例である。
- 1秒に1回程度のアクセスを行った男性が逮捕(後に起訴猶予)
- 問題とされたのは「不正アクセス」ではなく業務妨害
- サーバー側のシステムに問題があり、障害が発生したことが問題視された
この事件が示した教訓は明確だ。
「1秒に1回なら安全」という基準は存在しない。
相手の業務を妨げたかどうかが判断基準になる。
3. 不正アクセス関連法の注意点
日本:不正アクセス禁止法
この法律は、認証の突破を主な対象としている。
対象外となるケース
- 公開ページへの通常のアクセス
違法となるケース
- 他人のID・パスワードの使用
- 脆弱性を突いた非公開領域への侵入
- CAPTCHAの自動突破
- IPブロックの技術的回避
特に、ログイン必須サイトを自動化ツールで突破する行為は、規約違反にとどまらず、法的リスクが高い。
米国:CFAA
-
hiQ Labs v. LinkedIn(2022年)
「一般公開されている情報へのアクセスはCFAA違反に当たらない」という判断が示され、スクレイピング容認派にとって重要な先例となった。
4. robots.txt と利用規約
robots.txt とAI時代
robots.txt は単なる技術的ファイルではなく、サイト運営者の明確な意思表示である。
近年は以下のようなAI学習用ボットが明示的に制御されている。
-
GPTBot(OpenAI) -
CCBot(Common Crawl) -
Google-Extended(Google AI学習用) -
anthropic-ai(Anthropic)
法的に解析例外が成立する場合でも、明示的な拒否を無視することは、将来的な紛争や信用低下につながる。
利用規約の拘束力
-
Browse-wrap
規約リンクのみ表示する形式。
近年は「利用=同意」と明示する例が増加。 -
Click-wrap
同意ボタンを押させる形式。
契約として有効になる可能性が極めて高い。
ログイン後のスクレイピングは、ほぼ確実に契約違反リスクを伴う。
規約違反で想定されるペナルティ
- アカウント停止・削除
- IPアドレスのブロック
- 損害賠償請求(民事)
- 差止請求
- 刑事告訴(業務妨害など、悪質な場合)
5. 各国の法制度比較(要点)
| 観点 | 米国 | EU | 日本 |
|---|---|---|---|
| 著作権 | フェアユース | TDM例外(拒否可) | 情報解析例外(30条の4) |
| 不正アクセス | CFAA | サイバー犯罪条約 | 不正アクセス禁止法 |
| 業務妨害 | 動産不法侵入 | 各国刑法 | 偽計業務妨害罪 |
| 個人情報 | 州法中心 | GDPR(厳格) | 個人情報保護法 |
6. 安全なスクレイピングのベストプラクティス
事前確認(最重要)
- 公式APIの有無を確認(最優先)
- robots.txt の
Disallow/Crawl-delay - AI学習用途の場合は bot 指定の有無
- 利用規約でスクレイピングが禁止されていないか
技術的配慮
- User-Agent に連絡先(メールアドレス等)を明記
- アクセス間隔は最低1〜2秒、状況次第で数秒以上
- エラー発生時は指数バックオフ(1秒→2秒→4秒→8秒...)
- 高度な対策サイトへの無理な回避行為は避ける
- 同時接続数を制限する(1〜2接続程度)
クラウド利用の注意
- AWS・GCP からの攻撃的アクセスは
Abuse Report → アカウント停止のリスクあり - 住宅用IPと異なり、データセンターIPは検知されやすい
データ取り扱い
- 個人情報の収集は避ける(GDPR・個人情報保護法)
- 著作物の複製は解析目的に限定
- 停止要請には速やかに従う
サービスを提供しているサイトで、スクレイピング、クローリング(クローラー、スパイダー)、ハーベスティング、データマイニング、ボット(ロボット)、スクリプトなどの用語で書かれていたり、「自動的に」「自動化された」「機械的に」「プログラムを使用して」「ソフトウェアを使用して」などという表現で書かれている注意書きは、その内容を十分に理解し、従わなければならない。
付録A:日本でスクレイピングが禁止・制限されている主なサービス
明確に禁止されているサービス一覧
| サービス | 禁止明記 | 代替API | 備考 |
|---|---|---|---|
| Yahoo!ファイナンス | ◎ | VIP倶楽部(有料) | ヘルプで明確に禁止 |
| Amazon | ◎ | Product Advertising API / SP-API | 技術的対策も厳格 |
| 楽天市場 | ◎ | 楽天ウェブサービス | 審査あり |
| メルカリ | ○ | なし | 合法的な自動取得手段なし |
| X(旧Twitter) | ◎ | X API v2(有料) | 2023年以降有料化 |
| ◎ | Graph API | ビジネスアカウント向け | |
| ◎ | Graph API | 開発者登録が必要 | |
| Yahoo!ニュース | ◎ | なし | 著作権の二重構造あり |
| Yahoo!路線情報 | △ | なし | 入門教材で頻出だが実際は禁止 |
| ジョルダン | ○ | オープンAPI(制限あり) | 時刻表データは再配布禁止 |
凡例: ◎=明確に禁止、○=禁止規定あり、△=間接的に禁止
条件は変更される可能性があり、常に最新情報を確認しなければならない。また、場合によっては慎重な判断が必要なケースもある。
また、API利用にも禁止事項、制限事項があるので、きちんと規約を確認すること。
グレーゾーンの例:食べログ
食べログは「明確に禁止」とも「許可」とも言えない重要なグレーゾーン事例である。
利用規約では「スクレイピング」という語は明示されていないが、データの再配布・商用利用は禁止されている。
「当社の事前の同意なく、食べログの提供する情報を複写、再生、複製、送付、譲渡、頒布、配布、転売、またはこれらの目的で保管すること」は禁止
特に注意すべきは口コミデータに関する規定である。
「食べログに掲載されている口コミを利用して利益を得た場合には、当社はその利益相当額の金員を請求できる権利を有する」
つまり、スクレイピング自体より取得後の利用方法が問われる。個人的な研究目的であればグレーだが、商用利用は明確にリスクがある。
乗換案内の特殊事情
時刻表データはJR・私鉄各社からライセンスを購入して提供されている。そのため、スクレイピングしたデータの再配布は利用規約違反となる。
重要な制限
Google Maps Directions APIは日本の電車乗換案内に非対応
Googleの公式ドキュメントには以下のように記載されている。
「Directions API と Distance Matrix API は、
日本を除くすべての国の Google 乗換案内パートナーをサポートしています」
代替手段
- 駅すぱあとAPI(有料、フリープランは機能制限あり)
- ジョルダン乗換案内オープンAPI(無料だが制限あり)
- 月間利用回数の制限(1API 3,000回、合計10,000回)
- 時刻表を考慮した経路検索には非対応
- 公共交通オープンデータ(GTFS形式)
付録B:禁止サイトの見分け方
スクレイピングを行う前に、以下のチェックリストで確認すること。
1. 利用規約を検索
以下のキーワードで利用規約内を検索する。
- 「スクレイピング」
- 「クローリング」
- 「自動」「自動化」
- 「ボット」「ロボット」
- 「機械的」
- 「プログラム」
2. robots.txt を確認
https://example.com/robots.txt にアクセスして確認する。
User-agent: *
Disallow: /
このような記述がある場合、全てのクローラーを拒否している。
3. 公式APIの有無を確認
公式APIが提供されている場合は、そちらを使用することが強く推奨される。APIがあることは「スクレイピングはしないでほしい」というメッセージでもある。
4. 技術的対策の有無
以下の対策がある場合、スクレイピングを歓迎していないサインである。
- CAPTCHA
- レート制限
- ヘッドレスブラウザの検出
- 動的なクラス名・ID生成
- JavaScript必須のレンダリング
付録C:学習・研究に適した「ホワイト」なサイト
以下は、学習目的でのスクレイピングに比較的適したサイトである。
| サイト | 特徴 | URL |
|---|---|---|
| Wikipedia | API・データダンプ完備 | wikipedia.org |
| e-Stat | 政府公式統計、APIあり | e-stat.go.jp |
| 気象庁 | 公開データあり | jma.go.jp |
| 青空文庫 | 著作権切れテキスト | aozora.gr.jp |
| Quotes to Scrape | スクレイピング練習用 | quotes.toscrape.com |
| Books to Scrape | スクレイピング練習用 | books.toscrape.com |
| Open-Meteo | 無料天気API | open-meteo.com |
おわりに
スクレイピングにおいて最も重要なのは、
「できるか」ではなく「やっていいか」
を常に自問することである。
法・規約・技術・倫理を理解した上で行うスクレイピングこそが、プロフェッショナルなエンジニアの仕事である。
参考文献
書籍
- Ryan Mitchell『Web Scraping with Python』O'Reilly Media
主要判例
- eBay v. Bidder's Edge (2000)
- hiQ Labs v. LinkedIn (2022)
- Intel v. Hamidi (2003)
- Feist Publications v. Rural Telephone Service (1991)
- 岡崎市立中央図書館事件(2010年、日本)
法令
- 著作権法(日本)第30条の4
- 不正アクセス禁止法(日本)
- 個人情報保護法(日本)
- GDPR(EU一般データ保護規則)
- CFAA(米国コンピュータ詐欺・濫用防止法)
各サービス利用規約(2025年12月確認)
-
Yahoo!ファイナンス ヘルプ
- https://support.yahoo-net.jp/PccFinance/s/article/H000011276
- ※スクレイピング禁止についての記載ページ
-
Amazon.co.jp 利用規約
-
楽天ショッピングサービス ご利用規約
-
メルカリ 利用規約
-
X (Twitter) 利用規約
-
Meta(Facebook)利用規約
-
Meta(Instagram)利用規約
-
食べログ 利用規約
-
ジョルダン 乗換案内 利用規約
- https://www.jorudan.co.jp/terms/ (インターネットサービス利用規約)
- https://www.jorudan.co.jp/info/p_kiyaku.html (PREMIUM利用規約)
最終更新:2025年12月