~ 政府統計 × Python で、大阪・富山・東京・全国47都市を解剖した全記録 ~
はじめに
最初は、ただの興味だった。
「政府統計だけで、POSデータの代わりが作れるんじゃないか?」
76品目 × 47都市。約2,850通りの相関を一気に回した。
すると、牛肉と納豆の間に r = -0.69 の負の相関が出た。
西日本は牛肉を食べ、東日本は納豆を食べる。
日本の食文化は、まだ「東西」で分断されていた。
面白くなって、大阪を掘った。
「ケチの街」だと思っていたら、400年分の商人合理性が出てきた。
富山を掘った。
「質実剛健」だと思っていたら、薬売りの目利きが消費データに刻まれていた。
東京を掘った。
「平均的な街」だと思っていたら、中に5つの別の国が入っていた。
分析を重ねるほど、違和感が増えた。
「知っているつもり」の日本は、データの中にはなかった。
本記事は4つの分析を「再構成」し、バラバラに見えたテーマを一本の線でつなぐ。
本記事で扱う4つの分析
| # | 問い | 記事 |
|---|---|---|
| 1 | 消費の「地域差」は偶然か、構造か? | 全国76品目の相関分析 |
| 2 | 大阪は本当に「ケチの街」なのか? | 大阪市を丸裸にした話 |
| 3 | 富山は本当に「我慢の街」なのか? | 富山市を丸裸にした話 |
| 4 | 「東京の平均」は存在するのか? | 東京を丸裸にした話 |
バラバラのテーマに見える。
だが4つとも、同じ問題を見ている。
「平均」が、現実を隠している。
忙しい人向けに、先に結論だけ。
30秒でわかる「代替POS」
コンビニやスーパーのPOSデータは、買えない。
だが政府は毎年、47都道府県庁所在市の世帯消費を品目別に調査している。
総務省「家計調査」。
これをe-Stat APIで自動取得すれば、POSなしで「どの街で何が売れているか」がわかる。
e-Stat API → 76品目 × 47都市 → Z-score正規化 → 相関 / 類似度 / 代替シフト率
データソース:e-Stat テーブルID 0003348233(2024年、二人以上世帯)
① 消費の地域差は「偶然」ではなかった
▶ 元記事:代替POSを発明!全国76品目の相関分析
問い
76品目 × 47都市。約2,850通りのペアに、意味のある相関はあるのか?
発見
| 品目ペア | 相関係数 | 構造 |
|---|---|---|
| 牛肉 × 納豆 | r = -0.69 | 西の牛肉文化 vs 東の納豆文化 |
| カップ麺 × 炭酸飲料 | r = 0.71 | 寒冷地のセット購買 |
| ウイスキー × チーズ | r = 0.72 | 都市圏「おうち晩酌」 |
| りんご × ハンバーガー | r = -0.62 | 地産地消 vs 外食チェーン |
| 喫茶代 × 鉄道運賃 | r = 0.73 | 電車通勤者のカフェ立ち寄り |
2,850通りを約5秒で検定。
人力なら3〜5日。
農水省の食肉流通統計とも整合した。
本質
品目間の相関は「偶然」ではない。
地理・気候・歴史という構造が、消費を規定していた。
データは散らばっているように見えて、地層のように重なっている。
② 大阪は「ケチ」ではなく「最適化」していた
▶ 元記事:大阪市を丸裸にした話
問い
タクシー代0円。発泡酒3位。チューハイ3位。スポーツ月謝3位。
ケチなのか、豪快なのか。
大阪の消費は何で説明できるのか?
発見
大阪は「安い方を選ぶ」のではない。
「同じ機能なら安い方を選ぶ」。
| カテゴリ | 上位品 → 代替品 | 大阪 | 全国平均 |
|---|---|---|---|
| 酒 | ビール → 発泡酒 | 53.3% | 40.1% |
| 酒 | 日本酒 → チューハイ | 66.7% | 49.1% |
それでも酒類総支出は全国7位。
飲む量は変わらない。
銘柄が違うだけ。
本質
大阪は「ケチの街」ではなく「価格と価値のズレを許さない街」。
これは貧しさではない。
400年の商人文化が生んだ合理性のOSだ。
「同じ機能なら安い方」は、江戸時代の商家の行動原理そのものだった。
③ 富山は「我慢」ではなく「選別」していた
▶ 元記事:富山市を丸裸にした話
問い
すし全国1位。シャンプー1位。弁当45位。たばこ4位。
「質実剛健」なら、たばこも酒も控えるはずでは?
発見
大阪が「同機能なら安い方」を選ぶのに対し、富山は完全に逆。
「同カテゴリなら上位品」を選ぶ。
| 行動 | 大阪 | 富山 |
|---|---|---|
| 酒の選び方 | ビール → 発泡酒 | 発泡酒 → 清酒 |
| 外食 | コスパ重視 | 本物志向(すし1位) |
| 基本姿勢 | 同機能なら安く | 選ぶなら良いものを |
富山の消費は5つの柱で説明できる。
- 本物志向 ― 代替品ではなく上位品
- 内食志向 ― 弁当は買わないが食材にはかける
- 日常の質 ― シャンプー1位、温泉入浴料3位
- コミュニティ ― 信仰・祭祀費が全国平均の180%
- 嗜好に正直 ― たばこ4位、酒も上位。我慢しない
本質
富山は「我慢の街」ではなく「選ぶ街」。
江戸時代の薬売り文化が育てた**「目利き」の消費**が、現代のデータに残っていた。
大阪の「合理性」と富山の「選別」。
どちらも合理的だが、最適化の軸が違う。
④ 東京の「平均」の中に5つの国が入っていた
▶ 元記事:東京を丸裸にした話
問い
東京都区部は47都市比較で、突出した品目がほとんどない。
マッサージ1位なのに焼肉34位。
映画1位なのにスナック菓子42位。
港区の課税所得 約1,070万円。
足立区 約355万円。
同じ東京で年収が3倍違う。
あの「中途半端さ」は、港区と足立区を平均した結果ではないか?
発見
年間収入五分位でQ1(低所得20%)とQ5(高所得20%)を比較した。
| 品目 | Q1 | Q5 | 倍率 |
|---|---|---|---|
| 教育 | 16,952円 | 383,953円 | 22.65倍 |
| 飲酒代(外飲み) | 6,104円 | 42,912円 | 7.03倍 |
| スポーツ月謝 | 3,226円 | 23,372円 | 7.24倍 |
| 焼肉 | 2,669円 | 15,612円 | 5.85倍 |
| 米 | ― | ― | 1.03倍 |
| みそ | ― | ― | 1.01倍 |
金持ちになっても味噌の消費は変わらない。
だが教育費は22倍になる。
そしてQ1の代替シフト率は36.1%。
大阪の53.3%より低い。
大阪は「選んで代替する」。
Q1は 「選ぶ余地がない」 。
47都市との類似度を計算すると、Q1は長崎市・和歌山市に似て、Q5はさいたま市・富山市に似ていた。
本質
「東京の平均」は統計的な幻想。
これは地域差ではない。
所得階層による分断だ。
同じ東京に住んでいるのに、消費構造は別の県だった。
4つの分析を貫く「一本の線(=平均という錯覚)」
| 分析 | 壊した「常識」 | 見えた構造 |
|---|---|---|
| 全国相関 | 消費の地域差は偶然 | → 地理・気候・歴史が規定 |
| 大阪 | 大阪はケチ | → 400年の商人合理性 |
| 富山 | 富山は我慢 | → 薬売り文化の目利き |
| 東京 | 東京は平均的 | → 5つの国が重なった幻想 |
大阪は「どう買うか」を最適化する。
富山は「何を買うか」を選別する。
東京は「誰が買うか」で別世界になる。
全国では「どこに住んでいるか」が消費を決める。
4つの分析は、すべて同じことを言っている。
「平均」は存在しない。
構造だけが存在する。
結論:社会は複雑なのではない
今回の4つの分析で見えたのは、シンプルな事実だった。
- 東京は一つではない
- 大阪はケチではない
- 富山は我慢していない
- 消費の地域差は偶然ではない
つまり、
社会は複雑なのではない。
「見方」が雑だっただけだ。
「平均」という便利な言葉が、構造を覆い隠していた。
品目で切り、都市で切り、所得で切る。
それだけで、「知っているつもり」の日本が全く別の姿を見せた。
データは既に公開されている。
足りなかったのはデータではない。
「切り方」だ。
技術:パイプラインの全体像
4本の記事はすべて、同じ分析パイプラインの上に乗っている。
┌─────────────────────────────────────────┐
│ e-Stat API │
│ テーブルID: 0003348233(都市別76品目) │
│ テーブルID: 0003348240(五分位×89品目) │
└────────────┬────────────────────────────┘
↓ 自動取得(約30秒)
┌────────────────────────────┐
│ データクリーニング │
│ ピボットテーブル化 │
│ Z-score正規化 │
└────────────┬───────────────┘
↓
┌────────────────────────────────────────────────┐
│ 分析モジュール │
│ ├ 全ペア相関探索(2,850通り / 約5秒) │
│ ├ コサイン類似度(都市間 / Q1-Q5 vs 47都市) │
│ ├ 代替品シフト率(カテゴリ内の上位↔下位比率) │
│ └ 所得弾力性(Q5/Q1倍率) │
└────────────────────────────────────────────────┘
- Python: pandas, scipy, numpy
- データ取得: e-Stat API(appId認証)
- 統計手法: ピアソン相関、スピアマン順位相関、コサイン類似度、Z-score正規化
- 再現性: 都市名を1行変えるだけで、任意の都市を即座に分析可能
次にやること
「見える化」はできた。次は"答え合わせ"に進む。
- 都道府県パネルデータで因果分析
- 消費 × 所得 × 人口動態の構造推定
- 「なぜそうなっているか」を統計的に検証する
「切り方」の次は、「つなぎ方」だ。
シリーズ一覧
| # | タイトル | リンク |
|---|---|---|
| 1 | 代替POSを発明!全国76品目の相関分析 | 読む |
| 2 | 大阪市を丸裸にした話 | 読む |
| 3 | 富山市を丸裸にした話 | 読む |
| 4 | 東京を丸裸にした話 | 読む |
| 総集編 | 本記事 | ― |