7
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

初めに

個人的にスクレイピングを行う機会があったため、注意すべき点をまとめました。
私自身のメモ程度のアウトプットです。

サイトの利用規約を確認する

サイトの利用規約を確認することが一番大切です!
対象サイトのルートドメイン直下のrobots.txtを確認することで、詳細が確認できます。
(例:https://qiita.com/robots.txt)

以下が、Robots.txtファイルに書かれている詳細です。

User-agent:クローラーの名前
Disallow:クロール不可ページやディレクトリのパス
Allow:クロール可能ページやディレクトリのパス
Crawl-delay:クロールのインターバル(単位は秒)

法律に違反する可能性

スクレイピングは、法律に違反する場合があります。
個人情報や知的財産権の侵害につながる可能性がある場合や、
過度なアクセスにより、サーバーに負荷をかける可能性があるので、十分に注意が必要です。

悪意はなくても、刑事事件に発展したケースもあるので十分気をつけましょう!

エラー処理や例外処理を実装する

スクレイピングには、エラー処理や例外処理を実装する必要があります。スクレイピング中にエラーが発生した場合には、自動的に処理を停止するなど、適切な対処を行うことが重要です。

データの利用

スクレイピングで取得したデータは、利用目的に合わせて加工し、利用規約に従って利用することが必要です。
また、スクレイピングで取得したデータを、第三者に提供する場合には、サイトの所有者から正式な許可を得ることが必要です。

終わりに

以上がスクレイピングの注意点でした!!
最後までご覧いただきありがとうございました。

7
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
7
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?