Help us understand the problem. What is going on with this article?

前々処理3:サクサク使うSQL(貿易統計のデータ検証)

More than 3 years have passed since last update.

データを検証しましょう。(SQLは、知っている前提)

実際にデータ分析をすればわかりますが、データがおかしいことはしばしばりあり、検証することは重要です。大きなデータになればなるほど、検証の手間は大変です。実際のデータで検証をしてみましょう。
今、tmp.db にあるデータは、この2つです。

No 名称 件数 説明
1 ym_custom_latest 税関別データ 最新(2017 1-7 ) 2324451 sqlite 形式
2 ym_latest 全国データ  最新(2017 1-7 ) 814081 sqlite 形式に変換済み
  • 税関別データ(詳細) 全国に税関コードが加わっているだけ
No 項目 内容 補足
1 "index" INT index
2 exp_imp INT 輸出1,輸入2
3 Custom TEXT 税関コード (例)100 全国との違いはここだけ
4 Year INT 年 (例) 2016
5 month TEXT 月 (例) 01
6 Country TEXT 国コード (例) 103
7 Unit1 TEXT 数量の単位 1 キログラムと、リットルなどです。
8 Unit2 TEXT 数量の単位 2
9 hs2 TEXT HS code 2桁 HS code 2桁
10 hs4 TEXT HS code 4桁
11 hs6 TEXT HS code 6桁
12 hs9 TEXT HS code 9桁
13 Q1 INT 数量 1 数量の単位に対応
14 Q2 INT 数量 2
15 Value INT 金額 1000円

全国と税関別の合計(集計)はあうはずです。

  • 輸出、輸入(1月から7月までの集計)

全国

select exp_imp,sum(Value) as Value from ym_latest group by exp_imp

輸出入 金額
1 44283374669
2 42817910937

税関別

select exp_imp,sum(Value) as Value from ym_custom_latest group by exp_imp

輸出入 金額
1 44283374669
2 42817910937

全国と税関別の月ごとの合計

一時的なテーブルを作成して、比較してみます。

  • 全国 集計結果を一時的なテーブル x_ym に格納します。
create table x_ym as select exp_imp,month,sum(Value) as ym_value from ym_latest  group by exp_imp,month
  • 税関別もつくります。
create table x_ym_custom as select exp_imp,month,sum(Value) as ym_custom_value from ym_latest  group by exp_imp,month
  • 全国も、税関別も結果は同じはず。検証してみましょう。

税関別と全国の合計の差をとって、差があるところを、取り出しています。差はもちろんありません。

select x_ym.exp_imp,x_ym.month,
x_ym.ym_value - x_ym_custom.ym_custom_value as diff
from x_ym,x_ym_custom 
where x_ym.exp_imp = x_ym_custom.exp_imp and x_ym.month = x_ym_custom.month and
abs(diff) > 0

輸出統計品目コードではどうでしょうか(あいません)

hs9 271500000 アスファルトで調べてみましょう。

検証は、7月の輸出をつかいます。

select   sum(Value) as Value from ym_latest 
where exp_imp=1 and month='07' and hs9='271500000'
group by exp_imp,month

結果は、かなり食い違います。計算間違いでしょうか?

month 全国 税関別
07 418628 4389811

それでは、貿易統計のページで調べてみましょう。
まず、全国のは統計品別表で調べることができます。結果は、 418628 であっています。
税関別は、統計品別国別税関一覧表から検索できます。
結果 は、国別、税関別にでているので、集計する必要がありますが、
インドだけで、1144130 なのですでにあいません。エクセルにはりつけて、計算すると、4389811 になり、上記の表の計算結果は、あっています。

食い違いが生じるのは、全国と税関別の集計結果が調整されているからです。よくある質問 の25番にあるように、販売価格等をしられたくない場合には、統計にのせないことも可能なために、この食い違いがでます。

zanjibar
データが好きです。
Why not register and get more from Qiita?
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away