1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

OpenRefineで住所をパースする

Last updated at Posted at 2022-12-15

動機

住所が与えられていて、それから自治体を抽出したいということはよくあると思う。でも住所のパースはそんなに簡単な作業ではないし、そこに誤記が含まれていたりするとかなり大変。ここではOpenRefineを使ってwikidata上の情報を参照しながらパースしていく手順を、覚え書きとして残しておく。これが決定版というわけではないけれど、使っている正規表現はOpenRefineではなくスクリプトとかでパースする場合にも参考になるかもしれない。

目的

都道府県から始まる住所から基礎自治体(市町村+特別区)1を抽出し、wikidataのIDにマッピングする。

今回はwikidataへのReconciliationを目的としているためかなり煩雑になっているが、誤字の検出やIDの対応付けが不要な場合にはReconcileする必要はなく、正規表現による切り出し4回でパース自体はできる。

注意事項

  • wikidataのデータが書き換わることで上手く処理できなくなる可能性がある
  • 一般論として都道府県は一意な文字列になるが、市町村は一意な文字列にならない。たとえば「府中市」には東京都府中市と広島県府中市があるので、都道府県と組み合わせた状態でなければこの2つを区別できない(同一名称の市区町村一覧を参照)2。この手順ではwikidataに対してReconciliationすることで別のIDとして区別されるようになっている。

処理の流れ

  1. 都道府県を抽出する
  2. 郡を抽出する
  3. 郡部にある町村を抽出する
  4. 郡部以外にある市区町村3を抽出する

手順

実例として文部科学省学校コード令和4年暫定版CSVファイル(東日本)を用いる。東日本だけになるが津々浦々の学校の住所が羅列されているデータセットである4。最初の行にメタデータ(といってもタイトルと更新日だけ)が入っているので1行無視して読み込む。

image.png
image.png

都道府県

"Add column based on this column"で都道府県名を切り出す。
image.png

カラム名はprefLabelとして以下のGREL式を使う。都道府県名が省略されているなどでマッチしない場合はnullになる。

value.find(/^(.{2}[都道府県]|.{3}県)/)[0]

image.png

ここで.{2,3}[都道府県]とまとめてしまうと、山梨県留市、広島県中市などで不正なパースになる。

後で使うのでprefLabelカラムをQ50337 (prefecture of Japan)に対してReconcileしておく。

パースさえできれば十分で、誤字の検出やIDへの対応付けが不要な場合にはReconcileする必要はない。以下同じ。

image.png
image.png
image.png

ここでマッチしないものがある場合、都道府県名の省略・誤字や旧自治体名などが原因なので個別に修正が必要。

同様に以下の式を使い郡名をgunLabelカラムに切り出す。

value.replace(cells.prefLabel.value,"").find(/^(中郡|.[^和]郡|[^市区]{3,4}郡)/)[0]

市・小市、大和山市、丸亀市家町などを正しくパースするために3分割している。これはそれぞれ、1字+郡は「中郡」のみ、2字+郡は2字目に「和」が存在しない、郡名に「市」や「区」は含まれない、という知識を利用している。このあたりは自治体合併がある度にチェックが必要。

Facet by blankを設定しfalseを選択する。

image.png
image.png

Facetでfalseを選択した状態でgunLabelカラムをQ1122846 (district of Japan)に対してReconcileする。このときprefLabelカラムをプロパティP131として含める。

image.png

含めないと愛知県海部郡と徳島県海部郡のような同字郡を区別できず、以下の確認作業に余計な手間がかかる。

wikidata上のデータ構造の関係で、郡名へのReconciliationは一意に定まらないことが多く、"gunLabel: judgment"のFacetでnoneを選択した状態で個別に選んでいく必要がある。

image.png

  • 北海道では郡と道の間に総合振興局が挟まっている場合が多く、そのような郡名は完全マッチしない。
    • 通常はトップヒット(スコア100)のものを選べば良い
    • しかし上川郡と中川郡は複数アイテム存在しており、手作業でチェックが必要。
       上川郡は
       Q1134139(十勝国・East area)が新得町・清水町の2つ
       Q1185437 (天塩国・North area)が和寒町・剣淵町・下川町の3つ
       あとはQ1185413(石狩国・South area)なので、
       Text filter (regexp)で選んでMatch allしていく。
      image.png
       中川郡は同様に
       Q690865(上川総合振興局)が美深町・音威子府村・中川町の3つ
       Q1134132(十勝総合振興局)が幕別町・池田町・豊頃町・本別町の4つ
  • 島根県隠岐郡も隠岐支庁のせいでトップヒットにならないので注意

作業を終えたら"gunLabel: judgment"のFacetを解除する。

郡部の町村

※東京都島嶼部の町村は郡がないのでここでは扱わない

Facetでfalseを選択した状態で以下の式を用いてcityLabelカラムに切り出す。

value.replace(cells.prefLabel.value,"").replace(cells.gunLabel.value,"").find(/^([^大玉][町村]|[大玉][町村]町|.[^町村]{1,4}[町村])/)[0]

町および玉町を正しくパースするため正規表現を3分割している

これまで同様にcityLabelカラムをQ1054813 (municipality of Japan)に対してReconcileする。
このときgunLabelカラムをプロパティP131として含める。

image.png

郡名同様、wikidata上のデータ構造の関係で、町村名へのReconciliationは一意に定まらないことがある。"cityLabel: judgment"のFacetでnoneを選択した状態で個別に選んでいく必要がある。

  • とくに真狩村・釧路町は正解がトップヒットではないので注意が必要

image.png

作業を終えたら"cityLabel: judgment"のFacetを解除する。

郡部以外の市区町村

※東京都島嶼部の町村は郡がないのでこちらで扱う

gunLabelのFacetでtrueを選択した状態で以下の式を用いてcityLabelカラムに切り出す。すでにcityLabelカラムは存在しているので、"Transform"を使う方が手数が少なくて済む。

cells.学校所在地.value.replace(cells.prefLabel.value,"").find(/^(市[川原]市|[四廿野][日々]市市|[^市区]{1,6}市|[北港]区|[^市区町村]{2,3}[区町村])/)[0]

前半は川市・原市・四日市・廿日市・野々市への対策込みの市、後半は北区・港区への対策込みの東京都特別区および島嶼部5

image.png

同様にcityLabelカラムをQ1054813 (municipality of Japan)に対してReconcileする。
このときprefLabelカラムをプロパティP131として含める。

とくに北海道や東京都島嶼部で顕著だが、Reconciliationで一意に定まらないことがあるのもこれまでと同様である。

結果

ずいぶん煩雑だと感じる人が多いのではないかと思うが、Reconciliationはせずに正規表現で抽出するだけならかなり便利に使える。Reconciliationのところは、wikidataではなく自前で専用のデータセットを用意しておけばぐっと簡便になるはずである。

今回の実例では33,308件中最終的に10件について自治体へのマッピングができなかった。いずれも東京都島嶼部で、全国的にみると一般的ではない表記(○○郡に相当する場所が○○島となっている)が使われていたためである。

image.png

なお同様に西日本のデータセット(令和4年暫定版CSVファイル(西日本))を用いると、23,631件のうち80件がマッピング不能で、うち78件が「宝市」が文字化けしたことによるもの、あとは「岡山県岡山」と「愛媛県今市」という誤字によるものであった。

image.png

  1. 2022年12月時点で存在する基礎自治体が対象。過去の自治体もある程度は扱えるが細かいところで不具合が出てくると思われる。

  2. マニアックな話だが、北海道には旧国名で区別されうる(=都道府県との組み合わせでは区別できない)同一名称の郡(上川郡と中川郡)が存在している。この手順では一応区別して扱っている。

  3. 東京都の島嶼部には郡に属さない町村がある

  4. 作成の都合上、最低限のカラムに絞り込んで作図しているが、本当はもう少し色々な情報が入っている。

  5. 島嶼部については対応が甘いかもしれない

1
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?