詳しくは上記のサイトを見ていただけると幸いですが
一部を転記します
Webスクレイピング
Web上に公開されている情報の中から特定のデータだけを自動抽出する「Webスクレイピング」が注目されています。
Webスクレイピングを活用することで、個人や企業活動のあらゆるビジネスシーンで業務効率化や、付加価値の創造に役立ちます。
Webサイトから自動的にデータを集めるWebスクレイピングを使えば作業効率を飛躍的に効率化します。
しかし、「そもそもWebサイトから情報を抽出するのは違法ではないか?」といった疑問を持つ方は特に多いでしょう。
結論として、Webスクレイピングそのものに違法性はありません。
データ分析を目的とし、新たに自社のデータベースとして活用する場合には問題ないとされています。
Webデータの活用は、民間に限らず政府も行っています。
たとえば、総務省では平成元年に消費者物価指数(CPI)の調査にWebスクレイピングの活用を発表しています。
参照:消費者物価指数(CPI)へのウェブスクレイピングの活用について
一方、抽出したデータを勝手に公開する著作権侵害や、Webサイトの利用規約にスクレイピング行為について言及されている場合は違法とみなされ、法的措置をとられる可能性もあります。Webスクレイピングで、気を付ける必要があるのは以下の3つです。
Webサイトの利用規約に違反する(利用規約で触れている場合は違反になる)
サーバに過度の負荷をかける(アクセス不能になり業務妨害にあたる)
著作権を侵害する(抽出したデータを無断で公開・販売するなど)
Webスクレイピング活用法
Webスクレイピングは、現在さまざまな分野で広く使用されています。
見込み客の獲得、価格チェック、
ビジネス市場分析に加えて、
学生はGoogle scholarから研究を行うこともできます。
不動産業者は住宅研究を行い、住宅市場を予測することができます。
また自社ブランドを宣伝するには、
YoutubeインフルエンサーやTwitterのエバンジェリスト(伝道者)を見つけることもできます。
あるいは、ニュースメディアとRSSフィードをスクレイピングすることによって、
効率的・効果的にニューストピックを集めることも可能です。
AWSでも使用する方法があります
論文関係の活用として
等があります@k-yoppi様のgit見ましたがとてもすごいシステムで
参考にさせていただいております
注意点としてはWindowsの場合は、CP932へ変換しようとするため、
CP932に変換出来ない場合は、UnicodeEncodeError例外が発生するみたいです
環境を共有しやすいDocker の活用なども視野に入れることをお勧めします!