Webスクレイピングの注意事項一覧

  • 742
    いいね
  • 2
    コメント
この記事は最終更新日から1年以上が経過しています。

はじめに

Webスクレイピングで誰も嫌な思いをしなくて済むように、注意事項一覧を作りました。
ただ、法律の専門家による解釈ではないので責任は取れません。
この記事は、クリエイティブ・コモンズのCC-BYで公開致しますので、ご自由にご改修下さい。

注意事項一覧

データをダウンロードする時

目的は下記のものに限る。

 * 個人や家族間で使用する
 * Web検索サービスを提供する
 * 情報解析をする
 ※参考:著作権法第30条・著作権法第47条(6,7)

対象コンテンツは下記のものに限る。

 * 文章(データベースのコンテンツの場合はコンテンツの一部のみに留めておく)
 * 画像(同上)
 * 音声(パブリックドメイン等のオープンなライセンスの物に限る)
 * 映像(同上)
 ※参考:著作権法第30条・著作権法第47条(7)

Webサイトへアクセスする時は下記の制限を守る。

 * robots.txt/robotsメタタグのアクセス制限内容を守る。
 * robots.txtがない場合でも、サーバアクセスの間隔を1秒以上空けるようにする。
 * Pragma:No-cacheメタタグが設定されているページはダウンロードしない。
 * rel=”nofollow”が設定されているリンクはクローラーで辿らない。
 * 会員のみが閲覧できるページの場合は利用規約を守る。
 * 情報収集を禁止する措置(ex.アクセス制限)がクローリング時に取られていた場合は、既に取得していた情報を含めて削除する。
 ※参考:著作権法第47条(6)

データを公開する時

集計データを公開する場合は許可を取る必要はない。

ただし、個人が特定されるデータの場合は許可を取る必要がある。

 ※著作権法は創作を保護する為の法律で、事実(ex.〇〇が△△個あった)は保護の対象にならない。
 

個別データを公開する場合は許可を取る必要がある。

ただし、Web検索サービスで先方のサイトを紹介する為の利用は除きます。
(キャッシュ配信型のキュレーションサービスは、Web検索サービスと認められない可能性があります)

 ※参考:著作権法第47条(6)

著者のスタンス

著者は、著作権法第47条の7の情報解析目的であっても、第47条の6の制約を守った方が良いと考えています。
著作権法第47条の6は、検索サービス事業の一部を行う者も対象で、「ソフトウェアによるウェブサイト情報の収集・格納(クローリング)」はその一部です。
ただし、情報解析目的の場合は第47条の6の制約を守らなくても良いというのが一般的な解釈です。
※参考:著作権法47条の6の解説(PDF) - きたおか法律事務所

Q&A(2014/12/03 追記)

疑問点とそれに対する回答を書きました。
→ Webスクレイピングの法律周りの話をしよう!

記事のライセンス

cc-by.png
@nezuq