事業所郵便番号データの辞書化
事業所郵便番号データを郵便番号データと同様にAPIから取得できるようDBへの格納を試みました。せっかくなので事業所名の正規化と住所(番地)とビル名の分離も可能な範囲で実施しました。
事業所名の正規化
事業所名は空白で区切られて法人種別 法人名 事業所名などが記載されていますが、今回はここから法人種別を含む法人名を抽出しました。あらかじめ用意した法人種別の一覧に照らし一致したものを法人名と結合することいで正式な法人名を取得しています。ただし、こんな単純な処理だけではカバーできないものが多数あり、個別の対応でリカバリーしています。
[個別の対応を行ったもの]
・省庁など
・市役所、町役場など
・アマゾン -> アマゾン合同会社
・商工組合 中央金庫 -> 商工組合中央金庫
・三井金属鉱業株式会社
・学校法人聖学院
・読売新聞 東京本社 -> 株式会社読売新聞東京本社
・YKK AP株式会社 -> YKK AP株式会社
ただし、実際にはすでに社名変更されている法人名が複数あるようです。法人番号データベースと突合すれば抽出できるのですが、今回はそこまではしていません。
番地とビル名の分離
事業所郵便番号データでは番地以降が1つのデータとなっていますが、実際に利用する際には番地とビル名は分離したいだろうと考え、試みました。これが一筋縄ではいかずいくつかのデータは残念ながら自動で分離することはできませんでした。
0608529 5丁目2番地北1条三井ビルディング5F 2番地の後ろで分離できず
1088571 3-10-1アーバンネット三田ビル8F アーバンの「ー」が全角マイナスになっており対応できず
5008530 長住町香蘭地区NTTドコモ東海岐阜ビル 地区の後ろで分離できず
6308589 奈良女子大学コラボレーションセンター3F 番地なしのパターンに対応できず
2428610 都市計画事業渋谷(南部地区)土地区画整理事業地内74街区1外
0798501 23丁目1番9番 1番9号の間違いと確信
これらは個別の修整データを保持してDBを更新することにしました。
日本の住所の課題
今回は約22,000件の事業所郵便番号データにある住所に対して処理しましたが、実際にはまだまだ対応しきれていない住所のパターンがあると思われます。日本の住所はローカルルールが多すぎてとても大変です。
今後のデジタル社会に向けて「仕様」を定義してほしい・・・