Edited at

普通の人のためのデータ分析(4) 最新の貿易統計を取得して、CSVにする

More than 1 year has passed since last update.

貿易統計は、もっともアクセスが多い政府統計です。

kaggle ダウンロード数 1000超えました

貿易統計は、一か月ごとに、集計されます。集計は速報から、HSコードという分類コードがきちんとついたデータまで何段階かあります。HSコードつきは、約一か月後に公開されます。そのデータを使い勝手のよくなるように、ひとつにまとめて、CSVにしました。

ぜひ、ダウンロードして、分析してみてください。結構面白いです。月別は、展開するとかなりの大きいです。1988-2015 だと4G 2012-2015 でも560Mです。

まとめたデータ(CSV形式、zipで圧縮、拡張子は、.csv)は、

!New 1988年から2015年まで、展開すると4Gあります

!New 2016年 1-6月+2015年一年分 kaggle で公開

2012年から2015年まで、月別(約80M)

2012年から2015年まで、年別(約9.6M)

※拡張子は、.csv がいいですね。

下記は、コードと名称の対応表です。抜けているコードが結構あります。かなりいい加減な出来だと思ってつかってください。

ちゃんとしたコード対応表は、公開してもらえる可能性があるので、あまり根性いれてつくっていません。

EUのHSコード表 あるんですが、少しDB化するのは面倒です。

国コード

HSコード 2桁

HSコード 4桁

HSコード 9桁


データをまとめる

元のデータを見てみましょう。かなり分析しずらいです。

統計一覧 から、輸出,輸入 のページに、最新のデータへのリンクがあります。

例えば、2016年4月がそのデータの一覧です。バラバラの22個のCSVデータになっています。このページには、固有のIDがふられています。上記のデータでは、000001153320 です。まずは、この ページから22個のCSVへのリンクを取得して、データを取得します。そして、22個のCSVをひとつにまとめます。


もとCSV のレイアウト

数量は、2種類あるのですが、違いはよくわかりません。

さて、4月分のデータですが、12月まで項目があります。4月の時点では、5月以降は、空白ですが、5月のデータが公開されると、4月のデータにも5月がはいります、。1年たつと、同じ年は、月は違っていても、データの内容は全部同じになります。表示としてはやや冗長な気がします。

項目
説明

Exp or Imp
輸出:1、輸入:2、

Year
年 ex. 2016

HS
9桁のHSコード

Country
国コード

Unit1
数量単位その1

Unit2
数量単位その2

Quantity1-Year
年間数量その1

Quantity2-Year
年間数量その2

Value-Year
年間 金額

Quantity1-Jan
1月数量その1

Quantity2-Jan
1月数量その2

Value-Jan
1月金額

以下同じ


まとめたCSVのレイアウト

年と、年月 でまとめた2種類つくります、


  • 年 

項目
説明

exp_imp
輸出:1、輸入:2、

Year
年 ex. 2016

Country
国コード

Unit1
数量単位その1

Unit2
数量単位その2

QY1
年間数量その1

QY2
年間数量2その

VY
年間 金額

hs2
HSコード 2桁

hs4
HSコード 4桁

hs6
HSコード 6桁

hs9
HSコード 9桁


  • 年月

項目
説明

exp_imp
輸出:1、輸入:2、

Year
年 ex. 2016

Country
国コード

Unit1
数量単位その1

Unit2
数量単位その2

Q1
数量その1

Q2
数量2その

Value
金額

month

hs2
HSコード 2桁

hs4
HSコード 4桁

hs6
HSコード 6桁

hs9
HSコード 9桁