学び合う会 #貿易統計 メモ
はじめに
- kaggle に日本の貿易統計のデータをアップして4年なりますが、ほとんど興味をもたれないないので、業をにやして勉強会をはじめました。
- テレビのニュースで、貿易は毎日のように報道されているのに、実際のデータに触れる人はとてもまれです。日本に限らず、英語圏でもあまりいないようです。貿易統計について、国連のデータがkaggle があがっていますが、正確さに問題があるようです。 私があげているのなら、しょうがないですが、見た目、国連があげているデータに問題があるのは困ったことです。
- また、日本の貿易統計はきちんと毎月アップしていて質がいいデータだという気がします。それを活用しないのはもったないと思っています。
貿易統計は面白いか? もちろん面白いです。
- 高級牛肉を日本から一番購入する国はどこでしょうか? モーニングサテライトの質問(モーサテQ)でやっていました。なんとカンボジアです。
- なんと日本が競走馬を輸出しています。なぜでしょうか? 調べてみてください。
- 多大な外交努力をして、TPP,EPA、FTAなどの貿易協定を締結しています。きちんと検証しているのでしょうか?
- なんで、中国は、パラキシレンを日本(韓国からも実は輸入しています。)から輸入しているのでしょうか? ペットボトルの原料です。中国でなぜつくれないのでしょう。(さすが、最近はつくっているようです。)
- 生きたイルカを韓国に輸出です。なぜでしょうか?
- 多くの人がかかわってくれれば、もっと面白いこと。重要なことを発見できるでしょう。単純集計で十分面白いです。
貿易統計のkaggle へのアップは、教材用データを探したのが原点です。
- 教材用データは面白くありません。大きいデータでもなく、古いし、内容的にも何か発見できるわけではないです。
- いろいろ探してみつけたのが、貿易統計です、CSVで公開されているので、まとめると、十分に大きく、毎月更新されて新鮮です。そして、面白いです。
kaggle にあげている貿易統計のデータはどんなものか? 今は、sqlite3 形式
- いろいろ試行錯誤して今、kaggle にアップしているデータは、sqlite3 形式です。(CSVでもアップしています。)
- なぜ、sqlite3 にしたかは、オンメモリを避けるためです。kaggle で主流の pandas はデータをオンメモリにします。大きなデータは複数あけるとあっという間にメモリが不足します。sqlite 形式なら、オンメモリでなくデータを開くことが可能です。
- sqlite3 にしたもう一つの理由は、データ配布です。sqlite3 を扱うアプリケーションがたくさんあります。CSV の形式だと500メガぐらいになると非常に扱いずらくなります(エクセルで開くことができません)。データ形式として、sqlite3 にしておけば、少しの学習コストで抽出だけならなんとかなります。そのため、配布形式としても結構
学び合う会 #貿易統計 は 現時点で何を目的とするのか? とりあえず私が望んでいること
教材用データ:
- sql,power bi,tableau public で使われる標準的な教材用データになる
- 前処理用のよいデータ(貿易統計はいろいろ問題があります。それを回避するのは前処理のよい訓練です。)
政策に使えるアウトプット
- きちんと集計してわかりやすく提示できれば、政策に使えるレベルまで行ける気がしています。
- (例) 台湾との貿易を増やしてより緊密な関係を築く、中国依存を減らす、地域の輸出品をもっと増やすにはどうしたらいいかなどなどです。