初めに
個人的にスクレイピングを行う機会があったため、注意すべき点をまとめました。
私自身のメモ程度のアウトプットです。
サイトの利用規約を確認する
サイトの利用規約を確認することが一番大切です!
対象サイトのルートドメイン直下のrobots.txtを確認することで、詳細が確認できます。
(例:https://qiita.com/robots.txt)
以下が、Robots.txtファイルに書かれている詳細です。
User-agent:クローラーの名前
Disallow:クロール不可ページやディレクトリのパス
Allow:クロール可能ページやディレクトリのパス
Crawl-delay:クロールのインターバル(単位は秒)
法律に違反する可能性
スクレイピングは、法律に違反する場合があります。
個人情報や知的財産権の侵害につながる可能性がある場合や、
過度なアクセスにより、サーバーに負荷をかける可能性があるので、十分に注意が必要です。
悪意はなくても、刑事事件に発展したケースもあるので十分気をつけましょう!
エラー処理や例外処理を実装する
スクレイピングには、エラー処理や例外処理を実装する必要があります。スクレイピング中にエラーが発生した場合には、自動的に処理を停止するなど、適切な対処を行うことが重要です。
データの利用
スクレイピングで取得したデータは、利用目的に合わせて加工し、利用規約に従って利用することが必要です。
また、スクレイピングで取得したデータを、第三者に提供する場合には、サイトの所有者から正式な許可を得ることが必要です。
終わりに
以上がスクレイピングの注意点でした!!
最後までご覧いただきありがとうございました。