スクレイピング禁止行為について
解決したいこと
食べログのスクレイピングについて、電話番号や店舗住所を取得したく、
法律違反にならないかを確認させて頂ければと思います。
robots.txt の内容
User-agent: *
Disallow: /ad_mobile/
Disallow: /rvwr/*/visitdtl/
Disallow: /yoyaku/tabelog_booking/
Disallow: /blog/to_blog
Disallow: /btb/
Disallow: /badge/google_badge
User-agent: Baiduspider
Crawl-delay: 5
User-agent: BaiduMobaider
Crawl-delay: 10
User-agent: BaiduImagespider
Crawl-delay: 10
User-agent: bingbot
Crawl-delay: 5
User-agent: psbot
Disallow: /
User-agent: BecomeBot
Disallow: /
User-agent: Teoma
Disallow: /
User-agent: Ask Jeeves
Disallow: /
User-agent: ListRan
Disallow: /
自分で試したこと
参考:https://docs.pyq.jp/column/crawler.html
基本的には
User-agent: *
Disallow: /ad_mobile/
Disallow: /rvwr/*/visitdtl/
Disallow: /yoyaku/tabelog_booking/
Disallow: /blog/to_blog
Disallow: /btb/
Disallow: /badge/google_badge
この部分が全ユーザーに対する内容かと思いますので、こちらを見ればよいと認識しております。
これ以下に関しては、
Baiduspiderは、中国の検索サイト「百度」のために、ウェブサイトの情報を収集するロボット(クローラ)。
など、特定の大型ロボットに対する内容かと思いますので。
それぞれURLに該当するページがどのあたりかを調べました
Disallow: /ad_mobile/
→
Disallow: /rvwr/*/visitdtl/
→rvwrは、基本的に口コミを書いている人の情報が該当するかと思いますので、
口コミ情報のスクレイピングは避けた方が良い
Disallow: /yoyaku/tabelog_booking/
→予約確認のページ
Disallow: /blog/to_blog
→ちょっと違うけどブログランキングがこのページhttps://tabelog.com/blog/ranking/
なのでブログ関係はNG
Disallow: /btb/
→下記URLが全国のお店のページで、何も絞っていない状態
→なので、絞り込みしない状態で全部取得する=サーバーの負担が大きすぎるスクレイピングはNG
https://tabelog.com/rstLst/btb/
Disallow: /badge/google_badge
→これに関してはバッジアイコンか何か?と思いましたがよくわかりませんでした。
https://tabelog.com/badge/google_badge
【利用規約の禁止行為】
[1]法令上又は本規約若しくはガイドライン上特に認められている場合を除き、食べログの提供する情報を当社の事前の同意なく、複写、若しくはその他の方法により再生、複製、送付、譲渡、頒布、配布、転売、又はこれらの目的で使用するために保管すること
結論
今回、案件で食べログの営業用リストを作成するといった内容なのですが、
上記のrobot.txtや利用規約から、スクレイピング自体は問題ないのかなと思いました。
ただ、利用規約の禁止行為部分に抵触するのかな?とも思ったのですが、知見がある方がいらっしゃればお伺いしたいです。
実際「食べログ リスト 営業」とGoogle検索すると、ぐるなびや食べログのリストを販売しているサイトは
いくつもあるので、よいのかなとも思うのですが、
①スクレイピング可否の考え方(robot.txtの解釈)
②禁止行為の考え方
この2点について確認させて頂けたらと思います。
宜しくお願い致します。