Edited at

Webスクレイピングの注意事項一覧

More than 3 years have passed since last update.


はじめに

Webスクレイピングで誰も嫌な思いをしなくて済むように、注意事項一覧を作りました。

ただ、法律の専門家による解釈ではないので責任は取れません。

この記事は、クリエイティブ・コモンズのCC-BYで公開致しますので、ご自由にご改修下さい。


注意事項一覧


データをダウンロードする時


目的は下記のものに限る。

 * 個人や家族間で使用する

 * Web検索サービスを提供する

 * 情報解析をする

 ※参考:著作権法第30条・著作権法第47条(6,7)


対象コンテンツは下記のものに限る。

 * 文章(データベースのコンテンツの場合はコンテンツの一部のみに留めておく)

 * 画像(同上)

 * 音声(パブリックドメイン等のオープンなライセンスの物に限る)

 * 映像(同上)

 ※参考:著作権法第30条・著作権法第47条(7)


Webサイトへアクセスする時は下記の制限を守る。

 * robots.txt/robotsメタタグのアクセス制限内容を守る。

 * robots.txtがない場合でも、サーバアクセスの間隔を1秒以上空けるようにする。

 * Pragma:No-cacheメタタグが設定されているページはダウンロードしない。

 * rel=”nofollow”が設定されているリンクはクローラーで辿らない。

 * 会員のみが閲覧できるページの場合は利用規約を守る。

 * 情報収集を禁止する措置(ex.アクセス制限)がクローリング時に取られていた場合は、既に取得していた情報を含めて削除する。

 ※参考:著作権法第47条(6)


データを公開する時


集計データを公開する場合は許可を取る必要はない。

ただし、個人が特定されるデータの場合は許可を取る必要がある。

 ※著作権法は創作を保護する為の法律で、事実(ex.〇〇が△△個あった)は保護の対象にならない。

 


個別データを公開する場合は許可を取る必要がある。

ただし、Web検索サービスで先方のサイトを紹介する為の利用は除きます。

(キャッシュ配信型のキュレーションサービスは、Web検索サービスと認められない可能性があります)

 ※参考:著作権法第47条(6)


著者のスタンス

著者は、著作権法第47条の7の情報解析目的であっても、第47条の6の制約を守った方が良いと考えています。

著作権法第47条の6は、検索サービス事業の一部を行う者も対象で、「ソフトウェアによるウェブサイト情報の収集・格納(クローリング)」はその一部です。

ただし、情報解析目的の場合は第47条の6の制約を守らなくても良いというのが一般的な解釈です。

※参考:著作権法47条の6の解説(PDF) - きたおか法律事務所


Q&A(2014/12/03 追記)

疑問点とそれに対する回答を書きました。

→ Webスクレイピングの法律周りの話をしよう!


記事のライセンス

cc-by.png

@nezuq