Excel
ジオコーディング

Excel の WEBSERVICE 関数でジオコーディング

More than 3 years have passed since last update.

Excel の WEBSERVICE 関数を使って、住所文字列に対応する緯度経度を取得する方法を紹介します。なお、この記事で紹介する方法は CSISシンプルジオコーディング実験 のサービスを使用したものとなります。この方法を使用する場合には CSISシンプルジオコーディング実験 参加規約 にしたがって、権利者の権利を侵害しないように注意してください。

WEBSERVICE 関数については前稿 Excel の WEBSERVICE 関数で外部データ取得 を参照してください。

1. シナリオ

世田谷区のサイト 公衆浴場~世田谷銭湯スタンプラリー「世田谷湯屋めぐり」を開催中!!~ の最下部にある、 公衆浴場一覧(CSV形式 2キロバイト) を例題とします。

CSV をダウンロードして Excel で開くとこのようなレイアウトになっているはずです。世田谷区の銭湯の一覧が住所・電話番号とともに整備されています。

image

B列 の住所文字列をもとに、以下のように緯度・経度を付与するのが今回の目的です。

image

2. 手順

ジオコーディング用の URL を設定

セル E3 に以下の式を入力します

URLの構築.
= "http://geocode.csis.u-tokyo.ac.jp/cgi-bin/simple_geocode.cgi?charset=UTF8&addr=" & ENCODEURL(B3)

image

入力するとセルに以下のような URL が表示されるはずです。

実際にこの URL にアクセスすると、以下のような XML が表示されるはずです。

image

※ 結果が二件含まれていることについては後述

XML を取得

セル F3 に以下の式を入力します

XMLの取得.
= WEBSERVICE(E3)

image

入力するとセルに XML 文字列が表示されるはずです。

緯度、経度をフィル

セル G3 および H3 に以下を入力します

緯度.
=FILTERXML(F3,"//latitude")
経度.
=FILTERXML(F3,"//longitude")

image

それぞれのセルに緯度経度らしき数値が設定されていたら成功です。

コピー

E3H3 を選択して E4H4 以下の行にコピーすることで、各行ごとにURL設定/XML取得/緯度経度フィルを行うことができます。

image

※ 最終行に明らかにあやしい緯度経度が含まれている件は後述

3. 解説

上記の手順では3つの関数を使用しています。

ENCODEURL(str) 文字列を URL エンコードして返す関数です。URLを組み立てるために使っています。住所文字列は通常日本語なので、そのまま URL に使ってしまうとサーバによっては正しい結果が返ってこないためです。

WEBSERVICE(url) 指定の URL のコンテンツを取得する関数です。ここで実際に CSISシンプルジオコーディング実験のサーバにアクセスが発生します。

FILTERXML(xml,xpath) xml 文字列に対して xpath で検索を実施して返す関数です。

上記はわかりやすくするために手順を別々に記述していますが、以下のように連結して記述しても問題はありません。

緯度(一行).
= FILTERXML(WEBSERVICE("http://geocode.csis.u-tokyo.ac.jp/cgi-bin/simple_geocode.cgi?charset=UTF8&addr=" & ENCODEURL(B3)),"//latitude")
経度(一行).
= FILTERXML(WEBSERVICE("http://geocode.csis.u-tokyo.ac.jp/cgi-bin/simple_geocode.cgi?charset=UTF8&addr=" & ENCODEURL(B3)),"//longitude")

4. 精度を上げるために

ジオコーディングサービスではクエリーに対して一意に座標が確定するとは限りません。たとえば上の 池尻4-35-25 の例では、東京都世田谷区兵庫県伊丹市 の2つの結果が返ってきていることがわかります。 これは FILTERXML 関数が最初にヒットしたものを返す点、加えて、XML ファイルの最初のエントリが東京都世田谷区のものであった、という偶然によってうまくいったものです。

実際セル B13桜丘2-18-26 の事例では明らかに北方の緯度経度が付与されていることがわかります。

この問題を回避するためには、人間による情報の補完が必要になってきます。上記の銭湯のデータは東京都世田谷区のローカルデータであることは自明なので、住所には都道府県市区町村名が省略されています。これを以下のように補完することが必要になってきます。

セルに入力する場合には、次のように文字列連結することになります。

URLの構築(コンテクスト補完).
= "http://geocode.csis.u-tokyo.ac.jp/cgi-bin/simple_geocode.cgi?charset=UTF8&addr=" & ENCODEURL("東京都世田谷区" & B3)

この方法で式を更新した結果がこちらになります。緯度経度のばらつきが収まっているのがわかるかと思います。

image

精度の高い変換のためには、データの各行に含まれないコンテクストにひもづく情報を適宜補完していくことが必要になってきます。

5. まとめ

  • WEBSERVICE 関数と CSISシンプルジオコーディング実験のAPIを使うことで、Excel 上でマクロを使わずにジオコーディングを行う方法を紹介しました。
  • クエリーを実行する際には都道府県市区町村名の補完を忘れずに。ローカル地名だけではバッティングが多発します。

追記

XML のレスポンスに2つ以上の候補が含まれているかを目視でチェックするのは大変なので、関数で発見する方法も紹介。

フラグ.
= ISERROR(FILTERXML(F3,"//candidate[2]/latitude"))

XML (F3) 文字列にふたつめの candidate がない場合には TRUEが返る、というものです。

image