#DeepLearningを用いた株価予測(データ取得編)
結構前から流行っているDeepLearning
これ使って何かしたいなぁという思いから出来るか分からないけど,とりあえず実益をかねて株価の予測をしてみようと思う.
ただDeepLearningをするうえで,まずは大量のデータが必要になる.
そのためにまず株価の情報を取得するためのプログラムを組むことにした.
###使用ツール
- Python3.7
- selenium
- googleDriver
###seleniumを使うための環境作成
このページを参考にさせていただきました.
###データ取得
今回データを取得するためにこちらのサイトを使わせていただくことにしました.
まずはrobots.txtの確認
User-Agent: *
Allow:/
Sitemap:http://kabuoji3.com/sitemap/sitemap-index.xml
2020/08/02現在,スクレイピング等は禁止されていないようなので,ありがたく使わせていただくことに.
早速,データ取得用のソースを作成
import time
from selenium import webdriver
start_code = 4004
end_code = 4500
start_year = 2015
end_year = 2020
base_url = "https://kabuoji3.com/stock/"
driver = webdriver.Chrome()
for code in range(start_code, end_code + 1):
for j in range(start_year, end_year + 1):
#コードがない場合は次の証券コードをチェック
try:
url = base_url + str(code) + "/" + str(j) + "/"
print(url)
driver.get(url)
#サーバーに負荷をかけないために少しおく
time.sleep(10)
driver.find_element_by_name("csv").click()
driver.find_element_by_name("csv").click()
time.sleep(10)
except Exception:
break
driver.quit()
ぱっと証券コードを見た感じ4000超えたあたりが多そうだったので,この辺のCSVデータを中心にいただくことに
あまり古いデータを使っても売買ルール等がもし変わっていたら,正しく学習してくれなさそうなので時系列はここ5年分に.
コロナショックのデータを学習すると変になる可能性も否定できないが,一応ダウンロードすることに.
もし使ってみてダメそうなら,どのデータを使うか取捨選択も必要かも.
取り合えず,データは取得したので次回はデータの加工の仕方について考えていこうと思う.