LoginSignup
31
28

More than 5 years have passed since last update.

普通の人のためのデータ分析(4) 最新の貿易統計を取得して、CSVにする

Last updated at Posted at 2016-06-11

貿易統計は、もっともアクセスが多い政府統計です。

kaggle ダウンロード数 1000超えました

貿易統計は、一か月ごとに、集計されます。集計は速報から、HSコードという分類コードがきちんとついたデータまで何段階かあります。HSコードつきは、約一か月後に公開されます。そのデータを使い勝手のよくなるように、ひとつにまとめて、CSVにしました。

ぜひ、ダウンロードして、分析してみてください。結構面白いです。月別は、展開するとかなりの大きいです。1988-2015 だと4G 2012-2015 でも560Mです。
まとめたデータ(CSV形式、zipで圧縮、拡張子は、.csv)は、
!New 1988年から2015年まで、展開すると4Gあります
!New 2016年 1-6月+2015年一年分 kaggle で公開
2012年から2015年まで、月別(約80M)
2012年から2015年まで、年別(約9.6M)
※拡張子は、.csv がいいですね。

下記は、コードと名称の対応表です。抜けているコードが結構あります。かなりいい加減な出来だと思ってつかってください。
ちゃんとしたコード対応表は、公開してもらえる可能性があるので、あまり根性いれてつくっていません。
EUのHSコード表 あるんですが、少しDB化するのは面倒です。

国コード
HSコード 2桁
HSコード 4桁
HSコード 9桁

データをまとめる

元のデータを見てみましょう。かなり分析しずらいです。
統計一覧 から、輸出,輸入 のページに、最新のデータへのリンクがあります。

例えば、2016年4月がそのデータの一覧です。バラバラの22個のCSVデータになっています。このページには、固有のIDがふられています。上記のデータでは、000001153320 です。まずは、この ページから22個のCSVへのリンクを取得して、データを取得します。そして、22個のCSVをひとつにまとめます。

もとCSV のレイアウト

数量は、2種類あるのですが、違いはよくわかりません。
さて、4月分のデータですが、12月まで項目があります。4月の時点では、5月以降は、空白ですが、5月のデータが公開されると、4月のデータにも5月がはいります、。1年たつと、同じ年は、月は違っていても、データの内容は全部同じになります。表示としてはやや冗長な気がします。

項目 説明
Exp or Imp 輸出:1、輸入:2、
Year 年 ex. 2016
HS 9桁のHSコード
Country 国コード
Unit1 数量単位その1
Unit2 数量単位その2
Quantity1-Year 年間数量その1
Quantity2-Year 年間数量その2
Value-Year 年間 金額
Quantity1-Jan 1月数量その1
Quantity2-Jan 1月数量その2
Value-Jan 1月金額

以下同じ

まとめたCSVのレイアウト

年と、年月 でまとめた2種類つくります、

  • 年 
項目 説明
exp_imp 輸出:1、輸入:2、
Year 年 ex. 2016
Country 国コード
Unit1 数量単位その1
Unit2 数量単位その2
QY1 年間数量その1
QY2 年間数量2その
VY 年間 金額
hs2 HSコード 2桁
hs4 HSコード 4桁
hs6 HSコード 6桁
hs9 HSコード 9桁
  • 年月
項目 説明
exp_imp 輸出:1、輸入:2、
Year 年 ex. 2016
Country 国コード
Unit1 数量単位その1
Unit2 数量単位その2
Q1 数量その1
Q2 数量2その
Value 金額
month
hs2 HSコード 2桁
hs4 HSコード 4桁
hs6 HSコード 6桁
hs9 HSコード 9桁
31
28
6

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
31
28