More than 3 years have passed since last update.

スクレイピングツール作成

Last updated at 2020-07-01Posted at 2020-06-16

Qiita初投稿です。よろしくお願いします。

自己紹介

31歳♂ 国立大学の情報科学専攻を卒業。 22歳　独立系SIer入社。食品卸売会社に常駐。 26歳　食品卸売会社の情報システム部に転職。現在に至る

Pythonを学習したいとなった経緯

食品卸売会社の情報システム部の企画に異動となり、 AIの導入の提案をしました。

しかし、AIベンダーだと高額すぎて、
利用部門から費用対効果が合わないと一蹴されてしまいました。

レガシーな開発ばかりであったことがコンプレックスになっていたのもあり、
自分でディープラーニングを組み込んで、提案できないかと思い、
Pythonを勉強し始めました。

Pythonを勉強し始めて、スクレイピングを知り、
これは需要あるのではと思い、ツール化しようとしました。

スクレイピングツールについて

食品卸売会社は50を超える支店、100を超える店舗を持っており、それぞれで得意先が違い、すべてを情報システム部で対応するのは不可能であったので、各店で多少ITの知識と根気があれば使えるように設計した。

実行方法

スタートアップにバッチファイルを配布して、朝PCを起動したときに、バッチファイルからPythonプログラムを実行。各得意先の情報を取得し、前回の取得内容と差分があった場合、URLと新しい情報があることをポップアップ表示する。

ファイル構成

各自で作成してもらえるようにシンプルなcsvファイルをインプット。アウトプットもcsvにして、前回の取得内容とのコンペアを容易にした。

指定内容

1.URL 2.取得項目のクラス（3つまで指定可能） 3.アウトプットファイル名

課題

1.クラスを定義していない項目は取れない →仮に取りたい項目にクラスが定義されていないと取得できない。IDやnameでも取るように検討したが、ややこしくなるので、見送り。今後の改善点とする 2.狙ったところ以外の余計な項目まで取れてしまう →入力データにするわけではないので、いらないところは削除してもらう。天気情報の取得は対応したが、汎用化するとややこしくなるので、見送り。今後の改善点とする 3.利用規約違反にならないこと、過剰な負荷をかけないことを意識しないといけない。

そして、転職へ

ここまで長々と書き連ねましたが、汎用性の高い開発技術を身につけ、会社に依存しないエンジニアになりたいと思うようになり、転職活動を始めました。このスクレイピングツールはポートフォリオとして活かします。

GitHubにて公開します。アドバイスをいただけると非常にありがたいです。
https://github.com/yamamasa2020/scraping-tool

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up