やりたいこと
ディープラーニングに使う適当なデータが欲しい。日本政府が良さそうなデータを公開してるらしい。さくっとぜんぶ入手しよう!
環境
Ubuntu, CentOS
Python 2 / 3
準備
$ pip install estat
データを手に入れる!
- e-StatのappIDを手に入れる
政府統計の総合窓口e-Stat( https://www.e-stat.go.jp/ )を開く - 画面右下の「新規登録」をクリック
- 仮登録したらメールが届くので本登録する
- e-Statの画面右下の「ログイン」をクリック
- ここからが迷いやすい 画面右上の「マイページ」をクリック
- 「API機能(アプリケーションID発行)」をクリック
こちらから( https://www.e-stat.go.jp/mypage/view/api )もたどりつけます... - 「名称」と「URL」を入力して、「発行」ボタンを押すとappIDが表示される。すかさずメモる!
- あともう一息
$ python
>>> import estat
>>> estat.download()
- appIDを聞かれるのでさっきメモったappIDを入力する
- あとはほっとけば大量の政府統計データが
~/estat/data-cache/
に保存されます
nltkと同じようにダウンロードできますね