郵便局が提供してる郵便番号データken_all.csv。
郵便番号データダウンロード
このデータは以下の様な仕様になっている。
全角となっている町域部分の文字数が38文字を越える場合、また半角となっているフリガナ部分の文字数が76文字を越える場合は、複数レコードに分割しています。
このデータには「複数レコードに分割している」と言うフラグがない。
ネット見てると、"("と")"で囲まれたデータを分割データと判断するしかないとか言う記述も見受けられる。
このデータに対して説明している「郵便番号データの説明」と言うページを見ると
データに以下の様なフラグがあると言うのが分かる。
郵便番号データの説明
13.一つの郵便番号で二以上の町域を表す場合の表示
このフラグが寝ている(=0)データで複数件郵便番号を持つデータで絞り込んだら、分割データを特定出来るんではないかと思いSQLで抽出してみた。
データを全部確認してみた所、この条件で分割データは特定できそう。
少なくとも、2024年11月時点のデータでは。
何かの足しにでもなればm(_ _)m
去年、分割レコードを結合したUTF-8版が提供されだしてる様なので出番はあまりないかも知らんけど。
と同時に長年このデータと格闘し続けてきた先人達に拍手!!