はじめに
概要
日本株のヒストリカルデータ(過去の値動きデータ)を有料配付しているサービスについて述べる。特に、ヒストリカルデータをCSV形式で取得できる有料サービスについて、3つを取りあげる。
著者について
都内でWeb開発系の仕事をしつつ、趣味で株式やFX、暗号資産(Bitcoin等)の取引を技術で解決する(Bot作成、情報推薦等)ことに興味を持って取り組んでいる。
過去には Qiita で下記のような記事を書いた。
- 株取引AI “AI Deep Kabu” を作り10ヶ月公開運用した知見:インフラ構成・料金、収益化難度、除外すべき銘柄
- DQNで機械学習した人工知能がBitcoinをシストレして月700万円儲けるまでの話(失敗)
- わかる!Firebase ~全てのサービスをおつまみ紹介~
- AWS S3で静的Webページをホスティングする
免責事項
* 本記事の内容は、著者個人が趣味の時間に自発的に行ったものです。著者が所属する会社または団体の監督指導の下に行ったものではありません。所属する会社または団体の発表のように見えることがあるかもしれませんが、その会社または団体は本記事の内容について、一切関知しておらず、なんら責任や関連はありません。
* 本記事の内容は、著者個人による見解であり、所属する団体、組織、会社、その他一切の枠組みによる公式見解ではありません。また、内容が正しいことも一切保証しません。
* 本記事の内容は、著者個人の成果物に関する情報の提供を目的としたものであり、投資の勧誘を目的としたものではありません。
* 本記事の内容または本記事の内容を元にして作成された成果物あるいはそれを元にした二次成果物(株価の予測投資情報の生成等を含む。以下、その成果物が生成する情報と呼称する。)のみを参考にして、投資の判断を行わないでください。また、本記事の内容またはその成果物が生成する情報が正確であることを、著者は一切保証しません。未来の出来事に対する予想も、あくまで予想であり、その時々の状況によって変わりうることにご注意ください。
* 投資を行う際には、投資を行う本人のみの判断と責任において行ってください。
* 仮に投資に失敗し、投資を行った者の資産が減ったり債務を負ったりしても、著者はなんら責任を負いません。
* その他、本記事を参考にしたかどうかに関わらず、投資の失敗や機会、利益の逸失等を含むいかなる不利益が何人に生じたとしても、著者はなんら責任を負いません。
なお、著者はこれから紹介するサービスについて、紹介による見返り・報酬の類いを受け取っていない。また、それらの宣伝を主目的とする記事ではない。
背景
自然言語処理において、辞典的なコーパスならWikipedia、動画へのコメントならニコニコデータセット、Q&AならYahoo! 知恵袋データや弁護士ドットコムデータセット、音声なら音声資源コンソーシアム、FXのヒストリカルデータ(過去の値動きデータ)なら HistData.com といったように、近年は無料あるいは安価にてビッグデータにアクセスできるようになってきた。これらにより、個人によるデータ解析や機械学習を用いた人工知能の開発を、以前より低いハードルで開始できるようになった。
しかし、日本株については、データの用意はまだまだ発展途上と言わざるを得ない。現在、無料でCSV形式で入手できる日本株のヒストリカルデータは、著者が探した限りは見つけられなかった。
データ分析や統計処理を行いたい人にとっては、データの用意は煩わしいものである。ところが、そもそもどういったサービスで日本株のCSV形式のヒストリカルデータを配布しているのか、どんな前処理が日本株には必要なのかをまとめた記事は、あまり多くないように思う。
本記事ではその問題解決の一助とするため、有料で日本株のヒストリカルデータを配布しているサイト3つを紹介する。データサイエンティストが本来集中すべきデータ分析に集中するための参考となれば、幸いである。
余談
隙あらば自分語り:本筋と関係ないので折りたたみ(クリックで展開)
2020年はライフスタイルが大きく変わった年だった。基本的に外出は推奨されず、出るにしてもマスクは必着、人と卓を囲んで飲み食いする頻度も激減し、お気に入りだった深夜までやっている焼き鳥屋は、今となっては閉店し、文字通りもぬけの殻になっている。
例年と比べると単調な日が多く、振り返ってみると2020年は「これをやったぞ!」と言えるような印象深い出来事が数えるくらいしかなく、気がつけば2020年が終わろうとしている、というのが感想である。今年の漢字は「密」だそうだが、自分にとってのそれは技術面や仕事面では「空」または「虚」の印象がある。
このままではいけない、何か始めないと無為な1年になってしまうと思い、10月から毎日更新でブログを始めたのが株のシステムトレードをしよう - 1から始める株自動取引システムの作り方である。
CSVデータを配布しているサービス
東京証券取引所 JPXデータクラウド
公式中の公式。しかしあなたが想像しているよりも、販売価格は桁違いに高い1。ユースケースによって具体的な値段が変わるため、明示は避けるが、おそらく試しに使ってみようとした個人は大抵が諦めるレベルの価格であろう。
また、CSVデータの取得にお金を積めるような人(個人というより、法人)はリアルタイム情報2を受信することもできる。取得代金の他にも、取得のための回線やマシンなどを別途用意しなければならないようだが、ひっくるめて1か月あたり数万〜百何十万円の費用がかかる。個人レベルでは費用感が合わず、お世話になることはないであろう。
Yahoo!ファイナンスVIP倶楽部
https://info.finance.yahoo.co.jp/vip/pr/
「Yahoo!ファイナンスVIP倶楽部」というサービス名で、日本市場に上場しているすべての株式について、株価のヒストリカルデータを毎月1980円(税別)で販売している。
「株価データはVIP倶楽部でダウンロードしろ」とヤフーファイナンスは案内3しているので、これを利用させてもらおう。なお、VIP倶楽部に加入すると、テレビ東京のWBS(ワールドビジネスサテライト)の見逃し放送を視聴する権利(月額500円税別)4もあわせて得られるので、その料金を加味するとかなりお得感があるといえる。
ただし、APIは用意されておらず、CSVをダウンロードするためのエンドポイントはCookieによる認可が必要である。このCookieはログインページからログインすることによって発行されるが、多要素認証を有効にしていると自動化するのは困難になる。
他サービスと異なり、株式の分割・併合を加味して、調整後終値を付加した状態でCSVを取得できる点は非常に嬉しい。調整後終値については後述する。
Yahoo!ファイナンスで取得できるデータ
- 日付
- 始値
- 高値
- 安値
- 終値
- 出来高
- 調整後終値
KABU+(株プラス)
合同会社ZEROBYTE が提供する情報サービス。株価のヒストリカルデータのほか、商標登録出願データや 銘柄の基本情報データ、日証金融資・貸株残高データ、決算・財務・業績データ、投資指標データなど多岐にわたる情報が提供されている。
Yahoo! ファイナンスとは異なり、自分でデータ分析した結果を SNS やブログで発信する権利が明示されている。料金は複数プランあり、月額1650円(税込)から5。
WebDAVにて提供され、BASIC認証で認可を兼ねるため、cURLでアクセスすることも可能ではある。しかし、共有フォルダ一括同期ツール(マウント)を使わない場合にはアクセス上限は1時間あたり6回から12回(プランによって異なる)に制限される。同期ツールを使用すると、データを取得するときにアクセス回数の上限が課されない。
KABU+ で取得できるデータ
- 証券コード
- 名称
- 市場
- 業種
- 日時
- 株価
- 前日比
- 前日比(%)
- 前日終値
- 始値
- 高値
- 安値
- VWAP
- 出来高
- 出来高率
- 売買代金(千円)
- 時価総額(百万円)
- 値幅下限
- 値幅上限
- 高値日付
- 年初来高値
- 年初来高値乖離率
- 安値日付
- 年初来安値
- 年初来安値乖離率
株式ヒストリカルデータの前処理
調整後終値
調整後終値とは、「過去ずっと株式の併合・分割が無かったと仮定したら、当時の株式の価値は現在の価値に換算するといくら」というものである。
例えば、YYYY年MM月DD日の市場が閉まった後、1株が10株に分割され、その後現在に至るまで分割・併合が無かったと仮定する。この場合、その日の1株は現在の10株分の価値があるので、「YYYY年MM月DD日の終値500円は、現在の資産価値に換算して5000円である」といえる。このとき、YYYY年MM月DD日の調整後終値は5000円になる。
Yahoo!ファイナンスのVIP倶楽部では最初から付加された状態で入手できるが、自分で計算することもできる。auカブコム証券で分割と併合
の表が用意されているので、 BeautifulSoup
等で table タグをパースすれば目的の変換テーブルを取り出すことができる。
その他
株式の価値に影響を与えるイベントは、他にも下記のようなものが挙げられる。
- 会社合併(ある会社が、別の会社に吸収される)
- 上場廃止(ある会社の株式が、廃止日以降市場で取引できなくなる)
- 株式交換・移転(上場・非上場を問わず、ある会社の株式を別の会社の株式に一定の割合で交換される)
おわりに
実はここで紹介した以外にも、いくつかの株価データ配信サービスを見つけたが、現在もサービス継続中なのかがわからなかったため、除外した。そのため意外にも、CSV形式で日本株のヒストリカルデータを配布しているサイトは多くないのかもしれない。
なお、本記事内容について、技術書典10にて著者が所属するサークルから販売予定の本「Fintechで儲かりたい!-入門編-」にてより詳しく解説している。
また、当該本は株のシステムトレードをしよう - 1から始める株自動取引システムの作り方から抜粋と加筆を加えたものであるため、興味がある読者はそちらも参照されたい。
-
「株価データのダウンロードを利用したい場合は、「VIP倶楽部」の「時系列データダウンロード」をご利用ください。」Yahoo!ファイナンス, “Yahoo!ファイナンス掲載情報の自動取得(スクレイピング)は禁止しています”, Yahoo!ファイナンス, アクセス日:2020年10月5日 https://support.yahoo-net.jp/PccFinance/s/article/H000011276 ↩