1
4

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

【総集編】「日本の消費」は見えていなかった。政府統計×Pythonで暴いた"平均"の正体

1
Posted at

~ 政府統計 × Python で、大阪・富山・東京・全国47都市を解剖した全記録 ~


はじめに

最初は、ただの興味だった。

「政府統計だけで、POSデータの代わりが作れるんじゃないか?」

76品目 × 47都市。約2,850通りの相関を一気に回した。

すると、牛肉と納豆の間に r = -0.69 の負の相関が出た。
西日本は牛肉を食べ、東日本は納豆を食べる。
日本の食文化は、まだ「東西」で分断されていた。

面白くなって、大阪を掘った。
「ケチの街」だと思っていたら、400年分の商人合理性が出てきた。

富山を掘った。
「質実剛健」だと思っていたら、薬売りの目利きが消費データに刻まれていた。

東京を掘った。
「平均的な街」だと思っていたら、中に5つの別の国が入っていた。

分析を重ねるほど、違和感が増えた。

「知っているつもり」の日本は、データの中にはなかった。

本記事は4つの分析を「再構成」し、バラバラに見えたテーマを一本の線でつなぐ。


本記事で扱う4つの分析

# 問い 記事
1 消費の「地域差」は偶然か、構造か? 全国76品目の相関分析
2 大阪は本当に「ケチの街」なのか? 大阪市を丸裸にした話
3 富山は本当に「我慢の街」なのか? 富山市を丸裸にした話
4 「東京の平均」は存在するのか? 東京を丸裸にした話

バラバラのテーマに見える。
だが4つとも、同じ問題を見ている。

「平均」が、現実を隠している。


忙しい人向けに、先に結論だけ。

30秒でわかる「代替POS」

コンビニやスーパーのPOSデータは、買えない。

だが政府は毎年、47都道府県庁所在市の世帯消費を品目別に調査している。
総務省「家計調査」
これをe-Stat APIで自動取得すれば、POSなしで「どの街で何が売れているか」がわかる。

e-Stat API → 76品目 × 47都市 → Z-score正規化 → 相関 / 類似度 / 代替シフト率

データソース:e-Stat テーブルID 0003348233(2024年、二人以上世帯)


① 消費の地域差は「偶然」ではなかった

▶ 元記事:代替POSを発明!全国76品目の相関分析

問い

76品目 × 47都市。約2,850通りのペアに、意味のある相関はあるのか?

発見

品目ペア 相関係数 構造
牛肉 × 納豆 r = -0.69 西の牛肉文化 vs 東の納豆文化
カップ麺 × 炭酸飲料 r = 0.71 寒冷地のセット購買
ウイスキー × チーズ r = 0.72 都市圏「おうち晩酌」
りんご × ハンバーガー r = -0.62 地産地消 vs 外食チェーン
喫茶代 × 鉄道運賃 r = 0.73 電車通勤者のカフェ立ち寄り

2,850通りを約5秒で検定。
人力なら3〜5日。
農水省の食肉流通統計とも整合した。

本質

品目間の相関は「偶然」ではない。
地理・気候・歴史という構造が、消費を規定していた。

データは散らばっているように見えて、地層のように重なっている。


② 大阪は「ケチ」ではなく「最適化」していた

▶ 元記事:大阪市を丸裸にした話

問い

タクシー代0円。発泡酒3位。チューハイ3位。スポーツ月謝3位。

ケチなのか、豪快なのか。
大阪の消費は何で説明できるのか?

発見

大阪は「安い方を選ぶ」のではない。
「同じ機能なら安い方を選ぶ」

カテゴリ 上位品 → 代替品 大阪 全国平均
ビール → 発泡酒 53.3% 40.1%
日本酒 → チューハイ 66.7% 49.1%

それでも酒類総支出は全国7位
飲む量は変わらない。
銘柄が違うだけ。

本質

大阪は「ケチの街」ではなく「価格と価値のズレを許さない街」。

これは貧しさではない。
400年の商人文化が生んだ合理性のOSだ。
「同じ機能なら安い方」は、江戸時代の商家の行動原理そのものだった。


③ 富山は「我慢」ではなく「選別」していた

▶ 元記事:富山市を丸裸にした話

問い

すし全国1位。シャンプー1位。弁当45位。たばこ4位。

「質実剛健」なら、たばこも酒も控えるはずでは?

発見

大阪が「同機能なら安い方」を選ぶのに対し、富山は完全に逆
「同カテゴリなら上位品」を選ぶ。

行動 大阪 富山
酒の選び方 ビール → 発泡酒 発泡酒 → 清酒
外食 コスパ重視 本物志向(すし1位)
基本姿勢 同機能なら安く 選ぶなら良いものを

富山の消費は5つの柱で説明できる。

  1. 本物志向 ― 代替品ではなく上位品
  2. 内食志向 ― 弁当は買わないが食材にはかける
  3. 日常の質 ― シャンプー1位、温泉入浴料3位
  4. コミュニティ ― 信仰・祭祀費が全国平均の180%
  5. 嗜好に正直 ― たばこ4位、酒も上位。我慢しない

本質

富山は「我慢の街」ではなく「選ぶ街」。

江戸時代の薬売り文化が育てた**「目利き」の消費**が、現代のデータに残っていた。
大阪の「合理性」と富山の「選別」。
どちらも合理的だが、最適化の軸が違う


④ 東京の「平均」の中に5つの国が入っていた

▶ 元記事:東京を丸裸にした話

問い

東京都区部は47都市比較で、突出した品目がほとんどない。
マッサージ1位なのに焼肉34位。
映画1位なのにスナック菓子42位。

港区の課税所得 約1,070万円。
足立区 約355万円。
同じ東京で年収が3倍違う。

あの「中途半端さ」は、港区と足立区を平均した結果ではないか?

発見

年間収入五分位でQ1(低所得20%)とQ5(高所得20%)を比較した。

品目 Q1 Q5 倍率
教育 16,952円 383,953円 22.65倍
飲酒代(外飲み) 6,104円 42,912円 7.03倍
スポーツ月謝 3,226円 23,372円 7.24倍
焼肉 2,669円 15,612円 5.85倍
1.03倍
みそ 1.01倍

金持ちになっても味噌の消費は変わらない。
だが教育費は22倍になる。

そしてQ1の代替シフト率は36.1%
大阪の53.3%より低い。
大阪は「選んで代替する」。
Q1は 「選ぶ余地がない」

47都市との類似度を計算すると、Q1は長崎市・和歌山市に似て、Q5はさいたま市・富山市に似ていた。

本質

「東京の平均」は統計的な幻想。

これは地域差ではない。
所得階層による分断だ。
同じ東京に住んでいるのに、消費構造は別の県だった。


4つの分析を貫く「一本の線(=平均という錯覚)」

分析 壊した「常識」 見えた構造
全国相関 消費の地域差は偶然 → 地理・気候・歴史が規定
大阪 大阪はケチ → 400年の商人合理性
富山 富山は我慢 → 薬売り文化の目利き
東京 東京は平均的 → 5つの国が重なった幻想

大阪は「どう買うか」を最適化する。
富山は「何を買うか」を選別する。
東京は「誰が買うか」で別世界になる。
全国では「どこに住んでいるか」が消費を決める。

4つの分析は、すべて同じことを言っている。

「平均」は存在しない。
構造だけが存在する。


結論:社会は複雑なのではない

今回の4つの分析で見えたのは、シンプルな事実だった。

  • 東京は一つではない
  • 大阪はケチではない
  • 富山は我慢していない
  • 消費の地域差は偶然ではない

つまり、

社会は複雑なのではない。

「見方」が雑だっただけだ。

「平均」という便利な言葉が、構造を覆い隠していた。
品目で切り、都市で切り、所得で切る。
それだけで、「知っているつもり」の日本が全く別の姿を見せた。

データは既に公開されている。
足りなかったのはデータではない。

「切り方」だ。


技術:パイプラインの全体像

4本の記事はすべて、同じ分析パイプラインの上に乗っている。

┌─────────────────────────────────────────┐
│  e-Stat API                             │
│  テーブルID: 0003348233(都市別76品目)  │
│  テーブルID: 0003348240(五分位×89品目) │
└────────────┬────────────────────────────┘
             ↓ 自動取得(約30秒)
┌────────────────────────────┐
│  データクリーニング         │
│  ピボットテーブル化         │
│  Z-score正規化              │
└────────────┬───────────────┘
             ↓
┌────────────────────────────────────────────────┐
│  分析モジュール                                 │
│  ├ 全ペア相関探索(2,850通り / 約5秒)         │
│  ├ コサイン類似度(都市間 / Q1-Q5 vs 47都市)  │
│  ├ 代替品シフト率(カテゴリ内の上位↔下位比率) │
│  └ 所得弾力性(Q5/Q1倍率)                     │
└────────────────────────────────────────────────┘
  • Python: pandas, scipy, numpy
  • データ取得: e-Stat API(appId認証)
  • 統計手法: ピアソン相関、スピアマン順位相関、コサイン類似度、Z-score正規化
  • 再現性: 都市名を1行変えるだけで、任意の都市を即座に分析可能

次にやること

「見える化」はできた。次は"答え合わせ"に進む。

  • 都道府県パネルデータで因果分析
  • 消費 × 所得 × 人口動態の構造推定
  • 「なぜそうなっているか」を統計的に検証する

「切り方」の次は、「つなぎ方」だ。


シリーズ一覧

# タイトル リンク
1 代替POSを発明!全国76品目の相関分析 読む
2 大阪市を丸裸にした話 読む
3 富山市を丸裸にした話 読む
4 東京を丸裸にした話 読む
総集編 本記事
1
4
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
4

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?