TL;DR
- 前回の裏切り度スコア(全国回帰の残差)はデータ特徴を正しく検出できたが、出てきた発見は全て既知だった(長野の公民館=公民館発祥の地、徳島の薬剤師=医療県として有名、等)
- **「隣接県との差異」**という重みを導入。地理的に近い=似ているはずなのに違う県を検出する
- 空き家の細分類154カテゴリがノイズ源だったので除外フィルタを適用
- 結果、大分県の有床診療所が全国1位(1557年の西洋医療伝来に遡る)、島根vs鳥取の福祉施設の選択が真逆(措置型vsリハビリ型)という、統計でしか見えない文化の差分を発掘
1. 前回の裏切り度スコア、何がまずかったか
前回の記事(E-Stat全探索は「意外性」を殺す)で「裏切り度スコア」を設計した。全国47都道府県の回帰線から外れた県を検出する手法だ。
per capita正規化で人口効果を除去し、沖縄・徳島・島根・長野など「構造的に独自の県」を浮上させた。データ特徴の検出としては正しかった。
問題:発見が全て「既知」
裏切り度スコアの目玉だった発見を改めて検証してみる。
長野県:公民館が異常に多い(裏切り度5.5)
全国モデルの予測: 人口1万人あたり公民館 1.1~2.1
長野県の実測: 人口1万人あたり公民館 8.7
→ 予測の4~8倍。5.5シグマの上振れ。
統計的には見事な検出だ。
だが調べると、長野県は「公民館発祥の地」として広く知られている。
戦後、上田市の公民館活動がモデルとなり全国に広まった歴史がある。
地域活性化の文脈では常識レベルの話だった。
他の発見も同様:
| 発見 | 裏切り度 | 既知度 |
|---|---|---|
| 長野の公民館数が突出 | 5.5 | 高い。公民館発祥の地として有名 |
| 沖縄の住宅構造が独自 | 5.5 | 高い。米軍基地・島嶼部の影響は常識 |
| 徳島の薬剤師が多い | 4.2 | 高い。「医療県徳島」として知られている |
| 福井の共働き率が高い | 3.3 | 高い。共働き率日本一は定番ネタ |
データ分析としては正しいが、Googleで検索すれば出てくる事実の「統計的裏付け」をしただけだった。
3つの具体的な弱点
弱点1: 比較対象が「全国平均」しかない
47都道府県の回帰線は、東京(1400万人)と鳥取(55万人)を同じ直線上に並べる。
外れ値が「文化の違い」なのか「スケールの違い」なのか区別できない。
弱点2: 空き家の細分類がノイズ源
354指標のうち154個が「空き家_X_Y」(築年数×構造×所有形態の組み合わせ)。小さな値のわずかな差がz-scoreで増幅され、上位を空き家が独占する。
弱点3: 「知ってた」の壁を越えられない
全国モデルから外れる県は、そもそも「独自性が有名な県」だ。
沖縄、長野、徳島 ── いずれも「うちの県は特殊だ」と自他共に認める県ばかり。
有名だから検出される。
検出されたから有名になったのではない。
データ分析で「知られていないデータ特徴」を出すのは、やはり困難だった。
2. 発想の転換:「全国から外れている」→「隣と違う」
改めて初期の手法に戻ろうと思った、、、
「全国の期待値からは外れていなくても、隣り合う県と全く違う動きをしている県があれば、それは統計上の誤差ではなく、その県独自の政策や文化に突き当たる確率が非常に高い」
これは筋が良い。なぜか。
**隣接する県は、気候・文化・経済圏が似ている。
** 東京と鳥取を比べても意味がないが、島根と鳥取を比べれば、「似ているはずなのに違う」が文化の差分として浮かぶ。
隣接県差異スコアの設計
1. 各指標を全国で標準化(z-score)
2. 隣接県ペア(A,B)の差分 = |z_A - z_B|
3. この差分を全ペアの差分分布で標準化 → 隣接県差異スコア
4. 高スコア = 「隣り合うのに全然違う」
さらに「ローカル乖離」として、ある県の値を隣接県グループの平均・分散と比較する手法も追加した。
47都道府県の隣接関係マッピング
Pythonの辞書で89の隣接ペアを定義。
海峡・橋も考慮(青函トンネル、瀬戸大橋、しまなみ海道等)。
沖縄は隣接県なしで分析対象外。
ADJACENCY = {
'北海道': ['青森県'],
'青森県': ['北海道', '岩手県', '秋田県'],
'富山県': ['新潟県', '石川県', '長野県', '岐阜県'],
'石川県': ['富山県', '福井県', '岐阜県'],
'島根県': ['鳥取県', '広島県', '山口県'],
# ... 全47都道府県
}
3. 最初の実行:空き家ノイズに埋もれる
最初の実行結果。
隣接ペア差異イベント: 1,081件検出
ローカル乖離イベント: 1,472件検出
TOP10を見ると:
1位: 三重 vs 和歌山 | 空き家_9_4 | 5.85
2位: 愛媛 vs 高知 | 空き家_7_3 | 5.58
3位: 愛知 vs 静岡 | 空き家_5_9 | 5.09
4位: 秋田 vs 青森 | 空き家_7_8 | 4.83
また空き家だ。
空き家の細分類154カテゴリが隣接県比較でもノイズ源になっている。
「空き家の築30年以上・木造・賃貸用」の微妙な分類差が増幅されているだけで、政策や文化の差分ではない。
4. 改善:空き家を除外する
EXCLUDE_PREFIXES = [
'空き家_', # 空き家の細分類(154カテゴリ)はノイズが多すぎる
]
valid_cols = [c for c in valid_cols
if not any(c.startswith(prefix) for prefix in EXCLUDE_PREFIXES)]
354指標 → 194指標に絞られた。
160指標の除去は大きいが、空き家の細分類は元々「同じ事実を154通りに分割しただけ」なので情報量の損失は小さい。
5. 結果:文化と政策の差分が浮上
空き家除外後のTOP(地理系も除く実質ランキング):
| 順位 | ペア | 指標 | スコア | 内容 |
|---|---|---|---|---|
| 1 | 大分 vs 福岡 | 一般診療所病床数 | 5.22 | 大分29.8 vs 福岡11.5 |
| 2 | 大分 vs 福岡 | 有床一般診療所数 | 5.01 | 大分2.0 vs 福岡0.8 |
| 3 | 京都 vs 福井 | 就業者数(主に仕事) | 4.63 | 福井4455 vs 京都3293 |
| 4 | 愛媛 vs 高知 | 療養病床を有する病院数 | 4.44 | 高知1.0 vs 愛媛0.5 |
| 5 | 島根 vs 鳥取 | 養護老人ホーム数 | 4.38 | 島根0.3 vs 鳥取0.1 |
(全て人口1万人あたり)
空き家が消えた途端、医療・福祉・労働の「文化の差分」が一気に浮上した。
6. 深掘り:大分県の有床診療所 ── 全国1位の謎
データ
大分県は有床一般診療所数・一般診療所病床数ともに全国1位。
| 指標 | 大分 | 福岡 | 全国平均 | 大分の順位 |
|---|---|---|---|---|
| 有床一般診療所数 | 1.97 | 0.84 | 0.65 | 全国1位 |
| 一般診療所病床数 | 29.76 | 11.51 | 9.08 | 全国1位 |
隣の福岡の2.4〜2.6倍。全国平均の3倍。
九州内の比較で見える構造
九州7県は全体的に有床診療所が多い(西高東低パターン)。
だが大分は九州の中でもさらに突出している。
有床一般診療所数(人口1万人あたり):
大分県: 1.97 ← 九州1位、全国1位
鹿児島県: 1.77
佐賀県: 1.69
長崎県: 1.54
熊本県: 1.45
宮崎県: 1.25
福岡県: 0.84 ← 九州最下位
面白いのは、医師数は全国平均並み(z=0.52)、薬剤師はやや少ない(z=-0.76) こと。
施設数は日本一だが、医療従事者数は普通。
「少ない医師が、小さな施設に分散配置されている」 構造が見える。
なぜ大分だけ突出するのか
調査すると、大分には日本の西洋医療の原点がある。
1557年、ポルトガル人宣教師ルイス・デ・アルメイダが、豊後府内(現・大分市)に日本初の西洋式病院を建設した。戦国時代のことだ。
以降、大分は早い時期から「地域に密着した小規模医療施設」が根付いた。
山間部が多く大規模病院へのアクセスが困難なため、「入院できる小さな診療所」が地域医療の受け皿として発展し続けた。
隣の福岡は九州大学病院を中心とした大規模病院への集約型。
同じ九州でも、分散型(大分)vs 集約型(福岡)の対比が、460年前から続いている。
460年の医療史が、統計の1行に凝縮されている。
これは全国回帰の裏切り度スコアでは見えなかった。隣接県比較で初めて浮かんだ発見だ。
7. 深掘り:島根 vs 鳥取 ── 福祉の「哲学」が真逆
データ
同じ山陰の隣県で、高齢化率も近い。
だが老人福祉施設の「種類の選び方」が正反対。
島根が強い指標(生活支援・措置型):
| 指標 | 島根 | 鳥取 | 島根の順位 |
|---|---|---|---|
| 養護老人ホーム数 | 0.34 | 0.07 | 全国1位 |
| 養護老人ホーム定員数 | 18.94 | 7.41 | 全国1位 |
| 介護老人福祉施設数 | 1.37 | 0.80 | 全国1位 |
| 障害者支援施設数 | 0.92 | 0.58 | 全国1位 |
| 保育所等数 | 4.43 | 3.38 | 全国1位 |
鳥取が強い指標(リハビリ・自立支援型):
| 指標 | 島根 | 鳥取 | 鳥取の順位 |
|---|---|---|---|
| 介護老人保健施設数 | 0.55 | 0.99 | 全国1位 |
| 介護老人保健施設定員数 | 38.74 | 53.67 | 全国2位 |
| 軽費老人ホーム数 | 0.25 | 0.52 | 全国1位 |
| 軽費老人ホーム定員数 | 14.90 | 21.20 | 全国1位 |
| 公営保育所等数 | 0.70 | 1.64 | 全国3位 |
パターンの解読
- 島根 → 「措置型・生活丸抱え型」: 養護老人ホーム(生活困窮高齢者の居住施設)、特別養護老人ホーム(重度要介護者の長期入所)。行政が責任を持って生活を丸ごと支える思想
- 鳥取 → 「リハビリ・自立復帰型」: 介護老人保健施設(リハビリして自宅復帰を目指す中間施設)、軽費老人ホーム(自立度の高い高齢者の低コスト住居)。自立支援・在宅復帰を重視する思想
どちらも全国1位を取っている。
同じ「高齢者を支える」でも、支え方の哲学が真逆だ。
なぜこの違いが生まれたか
島根: 隠岐諸島をはじめ離島・中山間地域が多い。在宅サービスだけでは地理的にカバー困難。
介護保険制度以前から社会福祉法人・社協が施設型福祉を整備してきた。
「帰る家がない/帰れない」高齢者のセーフティネットとして養護老人ホームを積極整備。
鳥取: 県土がコンパクトで、鳥取市・米子市の平野部に人口集中。在宅サービスの提供が相対的に容易。
「施設に入れる」より「リハビリして自宅に帰す」路線。
公営保育所が多いのも「地域で暮らし続ける」を支える姿勢の表れ。
同じ山陰でも、地理の微妙な違いが福祉の哲学を分岐させた。
養護老人ホーム(生活支援)vs 老健施設(リハビリ)の選択は、データにしか刻まれていない"政策思想の化石"だ。
8. 前回と今回の比較:何が変わったか
| 観点 | 前回(全国裏切り度) | 今回(隣接県差異) |
|---|---|---|
| 比較対象 | 全国47県の回帰線 | 隣接する2~6県 |
| TOPに来るもの | 有名な独自性(長野の公民館) | 知られていない独自性(大分の医療史) |
| ノイズ | 人口規模・地理規模 | 空き家細分類(除外で解決) |
| 発見の質 | 正しいが既知 | 未知の発見が出る |
| 解釈の深さ | 「この県は外れている」で止まる | 「なぜ隣と違うのか」が問える |
前回の発見 vs 今回の発見:既知度の比較
前回の目玉(全国裏切り度):
| 発見 | 裏切り度 | 既知度 | 検索で出るか |
|---|---|---|---|
| 長野の公民館が突出 | 5.5 | 高い | 「公民館発祥の地」で即ヒット |
| 沖縄の住宅構造が独自 | 5.5 | 高い | 米軍基地・島嶼部は常識 |
| 徳島の薬剤師が突出 | 4.2 | 高い | 「医療県徳島」は有名 |
| 福井の共働き率が高い | 3.3 | 高い | 「共働き率日本一」は定番 |
今回の目玉(隣接県差異):
| 発見 | 差異スコア | 既知度 | 検索で出るか |
|---|---|---|---|
| 大分が有床診療所全国1位 | 5.22 | 低い | 大分の医療関係者以外はほぼ知らない |
| 大分vs福岡が2.6倍差 | 5.01 | 非常に低い | 隣県比較しなければ見えない |
| 島根vs鳥取の施設選択が真逆 | 4.38 | 低い | 施設類型別の比較が必要 |
| 京都vs福井の就業率ギャップ | 4.63 | 中程度 | 福井の共働きは有名だが京都との対比は新鮮 |
前回は「統計的に正しい → 調べたら有名だった」のパターン。
今回は「統計で初めて見えた → 調べたら深い背景があった」のパターン。
比較対象を変えたことで、発見の「新規性」が上がった。
9. まとめと次の一手
今回学んだこと
- 全国回帰は「スケールの違い」を拾う。 隣接県比較は「文化の違い」を拾う
- ノイズ源の特定と除外が重要。 空き家154カテゴリは「同じ事実の154通りの分割」であり、除外しても情報損失は小さい
- 「隣と違う」は「全国で外れている」より解釈が深い。 比較対象が具体的なので「なぜ?」が問いやすい
次の一手
- e-Statから追加データ取得: 糖尿病死亡率、図書館貸出冊数、貯蓄額(全て社会・人口統計体系で取得可能)
- 徳島 vs 香川の「医療×食文化」仮説検証: 徳島は医師・薬剤師が日本トップクラスなのに糖尿病死亡率ワースト級。隣の香川はうどん文化。この矛盾を隣接県比較で定量化する
- 時系列の隣接県差異: 「昔は似ていたのに、ある時期から乖離し始めた」を検出すれば、政策変更の効果測定になる
前回の裏切り度スコアは「答えの出ない問い」を量産した。
今回の隣接県差異は「答えに辿り着ける問い」を生成した。
全探索 → 裏切り度 → 隣接県差異。
分析手法の進化は「何と比べるか」の進化だ。
使用データ: e-Stat 社会・人口統計体系(47都道府県 x 354指標 → 空き家除外後194指標)
コード: Python / pandas / scipy / 隣接県マッピング(89ペア)
前回記事: E-Stat全探索は「意外性」を殺す ── 裏切り度スコアで47都道府県の"常識破り"を発見する