Python
自然言語処理
テキストマイニング

景気ウォッチャーの景気判断理由集を取得するAPIをつくった

最近、景気ウォッチャーの景気判断理由集を利用したテキストマイニングがわりと行われているみたいで、自分もやってみようと思って調べたらデータの取得が結構面倒くさかったので簡単に取得できるAPIをつくってみました。

インストール

練習も兼ねてpypiに登録しました。

pip install econ-watcher-reader

もしくは、以下をクローンしてください。
https://github.com/si4141/scraper_for_economy_watcher

使い方

2018年1月から2018年5月までの景気判断理由集・現状を取得するには、以下のようにします。

from econ_watcher_reader import EconomyWatcherReader
reader = EconomyWatcherReader()
data = reader.get_data(kind_='current', start=datetime.datetime(2018, 1, 1), end=datetime.datetime(2018, 5, 1))

すると、このようなDataFrameが返ってきます。

industry reason_type region is_tokyo field score reason_sentence date
一般小売店[土産](経営者) お客様の様子 北海道 False 家計動向関連 3 2月は大雪に見舞われた月であったが、... 2018-01-01
百貨店(売場主任) 単価の動き 北海道 False 家計動向関連 3 当社の店舗では、いずれも来客数の前年割れ... 2018-01-01
百貨店(販売促進担当) 単価の動き 北海道 False 家計動向関連 3 全体的には来客数の減少や買上率の低下がみられた... 2018-01-01
スーパー(店長) お客様の様子 北海道 False 家計動向関連 3 節約志向は依然としてあるが、... 2018-01-01
コンビニ(店長) 単価の動き 北海道 False 家計動向関連 3 前月に続き、客単価が前年よりも上がっている。... 2018-01-01

元ファイルとの対応は以下の通りです。

  • industry →「業種・職種」
  • reason_type →「判断の理由」
  • region → 地域
  • is_tokyo → 2列目にある東京都を示す列
  • field →「分野」
  • score →「景気の現状判断」を0〜4に置き換えたもの
  • reason_sentence →「追加説明及び具体的状況の説明」
  • date → 対象月の月初(指標の発表日の前月の頭)

先行きのデータを取得するには、kind_に'future'を渡して、

data = reader.get_data(kind_='future', start=datetime.datetime(2018, 1, 1), end=datetime.datetime(2018, 5, 1))

としてください。
先行きには、「判断の理由」(reason_type)がありません。元ファイルにないためです。

その他

  • このページに掲載されているデータのみを取得します。
  • 「過去の資料」にはまだ対応していません。
  • 甲信越もまだ取得できません。
  • コンストラクタで、ここをスクレイピングしてデータ範囲などのパラメータを取得するようになってますが、importした時に取得すれば良い気がしてきたのでそのうち変わるかもしれません。

参考文献

景気ウォッチャーを使った研究たち