0
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 3 years have passed since last update.

【 Python】スクレイピングツールの作成メモ

Last updated at Posted at 2020-11-21

自分に向けたメモが主です。

##ゴール

パチンコのデータを取得するスクレイピングツールを作成

##設計

###台データ取得【テストまでOK】
G数や大当たり回数を取得するプログラムです。
これはほぼほぼ完成、テストで5台取得することができているので、全台となっても問題なく取得できるはず。
取得の流れはこちら

1.URLリストを作成する
2.URLリストを順番にアクセス
3.アクセスしたら欲しい情報を取得して、リストを作成
→例えばBB回数、G数を取得するのなら、それぞれリストを作成する
4.リストをデータフレームに変換

テーブルでread_htmlで取得することも試しましたが、各データフレームを結合するところで、うまく結合ができないため、欲しい情報だけをリストで取得し、それらをデータフレームに変換・結合する方法でまとまりました。

あとは取得したデータの型も整えます。

###スランプグラフの取得【テストまでOK】
各台のスランプグラフを取得するプログラムです。

考えている取得の流れはこちら

1.URLリストを作成(リストは台データと同じ)
2.画像URLリストを作成
3.画像URLを取得し、リストにappendする
→注意すべき点は欲しい画像は各ページに1つだけなので、わざわざfor文で回す必要がないという点。
4.画像をダウンロードする関数を作成
5.ダウンロード実行
→エラーをプリントする様に修正

画像で注意しなければならないのが、当日のデータについてはサイト側で対策しているのかSRCが一部相対パスになっているという点。
どの機種が相対パスになっているなどの規則性は感じられない。
そのため、取得するデータは基本的に前日のデータになる。
サイト側で何時に切り替わるのかは調査が必要。

###グラフのデータ化【テストまでOK】
次にスランプグラフの画像を解析して、データ化するプログラムです。

考えている流れはこちら

1.取得した画像を元に解析
2.解析情報をリストに入れる
3.リストに入った解析情報を再計算する
4.データフレームに変換
5.最初のデータフレームとマージする

##まとめ
特に自分用のメモに近いので、誰かの参考になるとは思えません。

0
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?