自分に向けたメモが主です。
##ゴール
パチンコのデータを取得するスクレイピングツールを作成
##設計
###台データ取得【テストまでOK】
G数や大当たり回数を取得するプログラムです。
これはほぼほぼ完成、テストで5台取得することができているので、全台となっても問題なく取得できるはず。
取得の流れはこちら
1.URLリストを作成する
2.URLリストを順番にアクセス
3.アクセスしたら欲しい情報を取得して、リストを作成
→例えばBB回数、G数を取得するのなら、それぞれリストを作成する
4.リストをデータフレームに変換
テーブルでread_htmlで取得することも試しましたが、各データフレームを結合するところで、うまく結合ができないため、欲しい情報だけをリストで取得し、それらをデータフレームに変換・結合する方法でまとまりました。
あとは取得したデータの型も整えます。
###スランプグラフの取得【テストまでOK】
各台のスランプグラフを取得するプログラムです。
考えている取得の流れはこちら
1.URLリストを作成(リストは台データと同じ)
2.画像URLリストを作成
3.画像URLを取得し、リストにappendする
→注意すべき点は欲しい画像は各ページに1つだけなので、わざわざfor文で回す必要がないという点。
4.画像をダウンロードする関数を作成
5.ダウンロード実行
→エラーをプリントする様に修正
画像で注意しなければならないのが、当日のデータについてはサイト側で対策しているのかSRCが一部相対パスになっているという点。
どの機種が相対パスになっているなどの規則性は感じられない。
そのため、取得するデータは基本的に前日のデータになる。
サイト側で何時に切り替わるのかは調査が必要。
###グラフのデータ化【テストまでOK】
次にスランプグラフの画像を解析して、データ化するプログラムです。
考えている流れはこちら
1.取得した画像を元に解析
2.解析情報をリストに入れる
3.リストに入った解析情報を再計算する
4.データフレームに変換
5.最初のデータフレームとマージする
##まとめ
特に自分用のメモに近いので、誰かの参考になるとは思えません。