aoi-oi
@aoi-oi

Are you sure you want to delete the question?

If your question is resolved, you may close it.

Leaving a resolved question undeleted may help others!

We hope you find it useful!

WEBスクレイピングが許可されているか否か

初歩的な質問ですみません。
今プログラミングのいろいろな勉強を始めている者ですが、
とあるサイトでrobots.txtを用いたところ、
User-Agent: *
Disallow: /order/mypage/
との表記があります。

これは例えば、
https://order.〇〇〇〇.co.jp/order/listPage/list.keyword=〇〇〇〇
といったページでのスクレイピングは禁止されているという意味であっていますか?
※前者の〇〇〇〇には社名、後者の〇〇〇〇には検索をかけた単語などが入る仕組みになっています。

末尾がorderやmypageでなければ、問題ないのですか?
それとも途中にorder(上記の例)が入っている場合は、一様に不可なのでしょうか?
教えてくださると幸いです。

1

4Answer

確認なのですが、 それは robots.txt の話であっていますでしょうか?

そうだとすると disallow は そのサイト上の絶対パスになる様なので /order/mypage/ へのクロールを許可しない の意でしょうね。

これは検索エンジンの クロールに関しての制約なので スクレイピングについてはまた別と思われます。


スクレイピングについては 利用規約を確認した方がいいのではないでしょうか?

まずスクレイピングが違法とされるケースがあります。たとえばウェブサイトの利用規約や利用条件でスクレイピングが明確に禁止されている場合、それに違反することは法的な問題となるわけです。

3Like

Comments

  1. @aoi-oi

    Questioner

    文章が一部足らずで恐れいります。おっしゃる通り robots.txt を用いてサイト上で確認した結果です。規約を確認してもスクレイピング(またはそれに相当するもの)への記述がなかったため、運営者に問い合わせてみます。

それらはrobots.txtに書くただのクローラへの指示なので,特定領域のインデックス(すなわち検索サイトへのキャッシュ)を防ぐぐらいの意味しかありません.
スクレイピングについては判断出来ませんので,必ずサイト運営者に問い合せてください.

3Like

Comments

  1. @aoi-oi

    Questioner

    これらは指示且つ特定領域のインデックを防ぐのですね、ご教示ありがとうございます。
    規約を確認してもスクレイピング(またはそれに相当するもの)への記述がなかったため、運営者に問い合わせてみます。

https://order.〇〇〇〇.co.jp/order/listPage/list.keyword=〇〇〇〇 というURLは

https://order.〇〇〇〇.co.jpがホストで
/order/listPage/ がディレクトリです

Disallow: /order/mypage/ の設定では

/order/mypage/ ディレクトリ以下のURLを拒否し、それ以外を許可します
なのでクローラーからのアクセスは通ると思われます

通らないのは
https://order.〇〇〇〇.co.jp/order/mypage/
以下のURLです

2Like

Comments

  1. @aoi-oi

    Questioner

    ご教示ありがとうございます。
    つまり、
    http://order.〇〇〇〇.co.jp/order/mypage/またはこれに以下何かが続く形のページ
    これらへは意図的に運営側が拒否をする設定をしていて、
    https://order.〇〇〇〇.co.jp/order/listPage/list.keyword=〇〇〇〇
    は通ることには通る(Allow表記はないため、特段許可もされていない)という認識であっていますでしょうか?
    実際にもし行うときはサイト運営者まで問い合わせる予定ですが、問い合わせ前に確認したく…度々お手数をおかけいたしますが、ご回答いただけましたら幸いです。よろしくお願いいたします。

  2. とあるサイトのrobots.txtがよくわかりませんが
    WEBサービスを受けていて設定を見たらそうなっていたなら運営側に何らかの意図があるかもしくは設定ミスかでしょうか?

    どうしてそんな設定があるのか?
    今はわかりませんが古くから検索結果に余計な情報を出さないようにしたり正しい情報にしたりするときに使っていました
    robots.txtはサーバー側が見に来た方に「このルールに従ってくださいね」というものなので従ってくれない場合は意味がありません

    robots.txtの設定不備による影響が出ているようであれば修正を指示すべきだと思いますが
    何らかの影響は出ていますか?

  3. @aoi-oi

    Questioner

    すみません、背景を記載した方が早いですね…!
    WEBサービスを受けているわけではなく、自主的にツール(例えばサイトの特定ページを数十分単位で読み込んでくれる自動更新ツールなど)を作って運用したく思っています。
    一から作り始めており色々と調査をしていたところrobots.txtの存在を知り、
    対象サイトで用いて確認した内容で
    User-Agent: *
    Disallow: /order/mypage/
    との表記があったため、これが指す対象のページがどこなのか判らず、今回ご質問に至りました。
    この後に運営さんまでお問い合わせしたのちに承諾をいただければツール制作に取り掛かる予定なのですが、いかんせん理解不足なので、知識を深めたく存じます。
    度々すみません。

  4. 他の人も助言されていますがスクレイピングツールは運用した人に結構な金額が請求された事例があります

    スクレイピング頻度は間隔を開けていたが使い方によっては連続して行われることがあった
    そのツールまたはサービスを一般公開してツール使用者が増えたことにより結果的にスクレイピング頻度が増加した

    などありますのでご注意願います

Your answer might help someone💌