CoARiJとは
「CoARiJ」は、有価証券報告書やCSR報告書、統合報告書の記載内容(事業概要や財務情報等)と、数値情報(株価およびTOPIX等の指数)をまとめたデータセットです。
github
非財務情報の重要性
ESGをはじめとした非財務情報の活用がこれからの投資判断には必要
伊藤レポート
投資判断において企業の持続可能性(Sustainability)やリスクを評価するために「ESG (環境・社会・ガバナンス」等の非財務情報を組み込むことが大きな論点となっている。
MiFIFⅡ等により、アナリストのリサーチが激しく評価され、淘汰圧力が高まる中で、非財務情報をベースとして投資家が必要とする情報を提供するアナリストのみが生き残れるといった意見も示された。
GPIFのESG投資への取り組み
ESGの要素に配慮した投資は長期的にリスク調整後のリターンを改善する効果があると期待できることから、公的年金など投資額の大きい機関投資家のあいだでESG投資に対する関心が高まっています。
投資家は企業の持続可能性を見ている
我々が適切なEDG評価基準を持ち、持続的な成長が見込める企業に投資を行うことで、長期的な投資パフォーマンスを向上させることができる可能性がある
非財務諸表分析の問題点
上場企業の「財務情報」は有価証券報告書や決算短信による開示が義務付けられている。ユーザは企業情報開示サイトであるTDNETやEDINETへのアクセス、また各種APIの利用により、財務情報を容易に閲覧、収集ができる。
http://disclosure.edinet-fsa.go.jp/
https://ufocatch.com/
一方で、「非財務情報」であるESG情報の収集は難しかった。そもそも開示義務がないため入手手段が限られているし、WEB上で公開されていたとしても手動でひとつひとつレポートをダウンロード、前処理する必要があったためである。
やること
- 動作確認
- part1ってことでご勘弁を
Environments
conda create -n coarij python=3.6 anaconda
source activate coarij
Install
pip install coarij
pip install janome # テキスト処理に使用
coarij -- # マニュアルが出てくる
Run command sample
# Download raw file version dataset of 2014.
coarij download --kind F --year 2014
# Extract business.overview_of_result part of TIS.Inc (sec code=3626).
coarij parse business.overview_of_result --sec_code 3626
# Tokenize text by Janome (`janome` or `sudachi` is supported).
pip install janome
coarij tokenize --tokenizer janome
# Show tokenized result (words are separated by \t).
head -n 5 data/processed/2014/docs/S100552V_business_overview_of_result_tokenized.txt
1 【 業績 等 の 概要 】
( 1 ) 業績
当 連結 会計 年度 における 我が国 経済 は 、 消費 税率 引上げ に 伴う 駆け込み 需要 の 反動 や 海外 景気 動向 に対する 先行き 懸念 等 から 弱い 動き も 見 られ まし た が 、 企業 収益 の 改善 等 により 全体 ...
まとめ
- 素晴らしいデータセット
- 分析はまた今度実施
- 経年での業績・ESG書きっぷり変化
- 伊藤レポートの検証
- 業績との相関というよりESG投資の実際
- 懸念
- 「書きっぷり」への対応
- 辞書
追記(2019-12-07)
- ESGレポートのテキスト起こしは対応していないっぽい
- Google Cloud Vision APIのOCRとか使わないといけないですね。。。
- その辺イマイチじゃないか??