1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

ken_all.csvの分割データを特定してみた

Last updated at Posted at 2024-11-06

郵便局が提供してる郵便番号データken_all.csv。
郵便番号データダウンロード

このデータは以下の様な仕様になっている。

全角となっている町域部分の文字数が38文字を越える場合、また半角となっているフリガナ部分の文字数が76文字を越える場合は、複数レコードに分割しています。

このデータには「複数レコードに分割している」と言うフラグがない。
ネット見てると、"("と")"で囲まれたデータを分割データと判断するしかないとか言う記述も見受けられる。
このデータに対して説明している「郵便番号データの説明」と言うページを見ると
データに以下の様なフラグがあると言うのが分かる。
郵便番号データの説明

13.一つの郵便番号で二以上の町域を表す場合の表示

このフラグが寝ている(=0)データで複数件郵便番号を持つデータで絞り込んだら、分割データを特定出来るんではないかと思いSQLで抽出してみた。
データを全部確認してみた所、この条件で分割データは特定できそう。
少なくとも、2024年11月時点のデータでは。
何かの足しにでもなればm(_ _)m
去年、分割レコードを結合したUTF-8版が提供されだしてる様なので出番はあまりないかも知らんけど。
と同時に長年このデータと格闘し続けてきた先人達に拍手!!

1
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?