はじめに
知り合いから各社の有価証券報告書を一気に分析できるプログラムあったらいいねって言われたので、
どんな言語がいいのか調べた結果Pythonで書くことにした。
(ググったり本屋をぶらぶらした感じPythonでスクレイピングはベタな題材っぽい)
開発環境とかコードは色々試しているところなので、有価証券報告書の情報を取るときに便利なXBRLについてとりあえずまとめ。
XBRLって何?
金融庁のサイトをチェック
上記サイトによると、XBRLとは
「XBRLとは、財務報告等開示書類に電子的タグを付し効率的な情報取得を可能とするための国際的に標準化されたコンピュータ言語です。提出者はXBRLの「タクソノミ」(電子的タグの集合)を基に、「インスタンス」(タグ付けされた開示書類ファイル)を作成します。」
開示する情報に紐づく属性はタクソノミで定義するけど、それだけだと情報不足(例えば数値がいつの年度のものか分からない)なので、期間や通貨単位はインスタンスで設定する。
プログラム書いて有価証券報告書の内容を抽出するなら、XBRLの利用はほぼ必須と言っても過言では無い。
XBRLを使うと何がいいの?
分析側としてはシステムに取り込むときにどのデータが何を表しているのかすぐに判別できる。
Pythonで実際に有価証券報告書のデータを一部抽出しているんだけど、本文を文字列検索するよりXBRLのタグで判別するほうが確実にお目当てのデータを抽出できる。
フォーマットが決まっている方が作る側としても楽だし、現物を読むにしても各社でフォーマット揃っている方が比較しやすい。