Haru57636433
@Haru57636433 (haru .)

Are you sure you want to delete the question?

Leaving a resolved question undeleted may help others!

スクレイピング禁止行為について

解決したいこと

食べログのスクレイピングについて、電話番号や店舗住所を取得したく、
法律違反にならないかを確認させて頂ければと思います。

robots.txt の内容

User-agent: *
Disallow: /ad_mobile/
Disallow: /rvwr/*/visitdtl/
Disallow: /yoyaku/tabelog_booking/
Disallow: /blog/to_blog
Disallow: /btb/
Disallow: /badge/google_badge

User-agent: Baiduspider
Crawl-delay: 5

User-agent: BaiduMobaider
Crawl-delay: 10

User-agent: BaiduImagespider
Crawl-delay: 10

User-agent: bingbot
Crawl-delay: 5

User-agent: psbot
Disallow: /

User-agent: BecomeBot
Disallow: /

User-agent: Teoma
Disallow: /

User-agent: Ask Jeeves
Disallow: /

User-agent: ListRan
Disallow: /

自分で試したこと

参考:https://docs.pyq.jp/column/crawler.html

基本的には
User-agent: *
Disallow: /ad_mobile/
Disallow: /rvwr/*/visitdtl/
Disallow: /yoyaku/tabelog_booking/
Disallow: /blog/to_blog
Disallow: /btb/
Disallow: /badge/google_badge
この部分が全ユーザーに対する内容かと思いますので、こちらを見ればよいと認識しております。
これ以下に関しては、
Baiduspiderは、中国の検索サイト「百度」のために、ウェブサイトの情報を収集するロボット(クローラ)。
など、特定の大型ロボットに対する内容かと思いますので。

それぞれURLに該当するページがどのあたりかを調べました
Disallow: /ad_mobile/

Disallow: /rvwr/*/visitdtl/
→rvwrは、基本的に口コミを書いている人の情報が該当するかと思いますので、
 口コミ情報のスクレイピングは避けた方が良い

Disallow: /yoyaku/tabelog_booking/
→予約確認のページ

Disallow: /blog/to_blog
→ちょっと違うけどブログランキングがこのページhttps://tabelog.com/blog/ranking/
 なのでブログ関係はNG

Disallow: /btb/
→下記URLが全国のお店のページで、何も絞っていない状態
→なので、絞り込みしない状態で全部取得する=サーバーの負担が大きすぎるスクレイピングはNG
https://tabelog.com/rstLst/btb/

Disallow: /badge/google_badge
→これに関してはバッジアイコンか何か?と思いましたがよくわかりませんでした。
https://tabelog.com/badge/google_badge

【利用規約の禁止行為】
[1]法令上又は本規約若しくはガイドライン上特に認められている場合を除き、食べログの提供する情報を当社の事前の同意なく、複写、若しくはその他の方法により再生、複製、送付、譲渡、頒布、配布、転売、又はこれらの目的で使用するために保管すること

結論

今回、案件で食べログの営業用リストを作成するといった内容なのですが、
上記のrobot.txtや利用規約から、スクレイピング自体は問題ないのかなと思いました。
ただ、利用規約の禁止行為部分に抵触するのかな?とも思ったのですが、知見がある方がいらっしゃればお伺いしたいです。

実際「食べログ リスト 営業」とGoogle検索すると、ぐるなびや食べログのリストを販売しているサイトは
いくつもあるので、よいのかなとも思うのですが、

①スクレイピング可否の考え方(robot.txtの解釈)
②禁止行為の考え方

この2点について確認させて頂けたらと思います。

宜しくお願い致します。

3

2Answer

法律違反しないために、3秒に1回程度のデータ抽出にする、一度に大量のデータを取り出さないようにする方がいいね!

1Like

追記

リスト販売会社のQ&Aにて

Q. 法人名簿に違法性はありますか?またどこから入手した情報ですか?
A.弊社で販売する法人名簿は全て法人がホームページ等に公開している公開情報となっています。お客様自身でも検索することで簡単に入手できる情報となっていますが、弊社ではWeb上の公開情報を自社システムで収集しまとめて販売しています。公開情報のため、違法性はない認識です。また、個人情報の取得販売は一切行っておりません。

という記載がありましたので、公開情報であれば違法性がないという内容がございました

0Like

Your answer might help someone💌