こちらの記事で「長野県長野市南長野県町」という住所が紹介されています。長野県の住所なのですが、県名の部分だけではなく大字と小字をくっつけたところにも「長野県」という文字列が現れています。単純に県名を文字列マッチして処理していると誤処理してしまいそうですね。
こういう住所って他にもあるんだろうかと気になったので、アドレス・ベース・レジストリを使って調べてみました。
使用したデータはアドレス・ベース・レジストリの「日本 町字マスター データセット」2023-01-25 更新版です。市区町村ごとに1000回以上ダウンロードしなきゃいけないのかなと思ったら、全データをまとめたものが公開されるようになったのですね。これは便利。
そして調べたスクリプトはこちら。書きなぐりの適当なので、汚いところはご容赦ください。
都道府県名が複数回登場したらという条件で検出しています。このときの都道府県名は同一でなくてもよしとしました。つまり「ほげ県*ふが県*」のようなものも検出しています。
require 'csv'
addresses = CSV.read('mt_town_all.csv', headers: true, nil_value: "")
prefectures = addresses.map{|e| e["都道府県名"]}.uniq
addresses.select do |address|
str = "#{address["都道府県名"]}#{address["市区町村名"]}#{address["政令市区名"]}#{address["大字・町名"].sub(/^(大字|字)/, "")}#{address["丁目名"]}#{address["小字名"].sub(/^(小字|字)/, "")}"
if prefectures.select{|e| str.include?(e)}.count >= 2
p str
end
end
結果は以下の通りです。
"宮城県大崎市古川上埣北海道"
"千葉県八千代市北海道"
"東京都府中市本宿町一丁目"
:
(途中省略)
:
"東京都府中市武蔵台三丁目"
"富山県上市町下経田北海道"
"愛知県岡崎市岩中町北海道"
"愛知県一宮市大和町氏永北海道"
"愛知県春日井市神屋町北海道"
"愛知県田原市北海道"
"愛知県田原市神戸町北海道"
"愛知県みよし市莇生町北海道"
"愛知県あま市七宝町桂北海道"
"愛知県あま市七宝町遠島北海道"
"愛知県大口町大屋敷北海道"
"愛知県扶桑町斎藤北海道"
"愛知県扶桑町高雄北海道"
"愛知県阿久比町阿久比北海道"
"京都府南山城村南大河原北海道"
「"東京都府中市」は間に「京都府」が入ってるパターンです。これは有名ですね。他は全て小字が「北海道」というパターンでした。ただ、読み方は「キタカイドウ」となるものが多いようです。そして、大字と小字の文字列をくっつけたところに都道府県名が現れるというパターンはありませんでした。
では冒頭の「長野県長野市南長野県町」はどうなっているのでしょう。アドレス・ベース・レジストリを確認すると、以下のようになっていました。
:
202011,0000264,3,長野県,ナガノケン,Nagano,,,,長野市,ナガノシ,Nagano-shi,,,,,,,,,,県町,アガタマチ,Agatamachi,0,0,0,1,0,0,0,0,1947-04-17,,0,3800838,
:
ウィキペディアの「南長野」の記事には以下の記述があります。
後述の9町が属しているが、長野市街地内の町(通称名)については住所表示の際に「大字南長野」を省くことが多く、郵便番号もそれぞれ単独で与えられている[1]。また、町名(通称名)のほか「幅下」「十念寺裏」といった小字があるが、これらは原則用いない(省略する)ことが長野市の慣例となっている。つまり、長野県立大学後町キャンパス近くの住所を例にとると以下の3通りの表し方がある。
- 長野市大字南長野西後町*** - *
- 慣例による(大字を省略しない)表記
- 長野市西後町*** - *
- 慣例による(大字を省略した)表記。最も一般的
- 長野市大字南長野字十念寺裏**番地
- 登記などに用いる表記
しかしながら、例えば長野県は長野県庁舎の住所を「大字南長野字幅下」と表記しており(慣例に従うならば「大字南長野妻科」または「妻科」)、混乱に拍車をかけている[2]。
つまり大字を省略する場合と省略しない場合が入り混じっていると。これも住所のややこしい特性の一つですね。アドレス・ベース・レジストリは大字南長野を省略する表記を採用したのでしょう。