概要
我々の「地理空間情報と自然言語処理」の研究プロジェクトでは、文章中の人物の地理的な移動を読み取り、その移動軌跡を実世界の地図上に接地する「移動軌跡解析1」システムの実現を目指しています。
今回、その第一歩として、日本語の旅行記である「地球の歩き方旅行記データセット」と地理データベース OpenStreetMap(OSM)を利用して、ジオパージングデータセット ATD-MCL を構築し、以下で公開しました。本記事では同データセットの概要を説明します。
https://github.com/naist-nlp/atd-mcl
なお、ATD-MCL とは、"Arukikata Travelogue Dataset with Geographic Entity Mention, Coreference, and Link Annotation" の略であり、使用している原データおよび新たに付与した情報(Mention=場所参照表現、Coreference=共参照、Link=データベースエントリ)の内容に由来します。
ジオパージングについて
ジオパージング(Geoparsing)は、文章から場所を表す表現(場所参照表現)を抽出するジオタギング(Geotagging)と、その位置情報を推定するジオコーディング(Geocoding)を合わせた処理を指します。位置情報の推定方法には、経緯度などの数値を直接推定する方法と、経緯度情報を含む地理データベース上のエントリを推定する方法がありますが、ここでは後者を想定します。
たとえば、次の文章が入力された場合、下のように、同じ場所を指す場所参照表現のグループ(=共参照クラスタ)と、その場所に対応する地理データベースエントリの ID(URL)をペアにして出力するのが目標となります(出力形式は必ずしもこの通りでなくても問題ありません)。なお、文章は架空のものです。
入力例:
近鉄奈良駅に到着。
そこから奈良公園までは歩いてすぐです。
お寺が好きなので最初に興福寺に行きました。
境内で鹿と遭遇し、奈良に来たことを実感しました。
出力例:
([近鉄奈良駅], https://www.openstreetmap.org/relation/11532920)
([奈良公園], https://www.openstreetmap.org/way/456314269)
([興福寺, 境内], https://www.openstreetmap.org/way/1134439456)
([奈良], https://www.openstreetmap.org/relation/3227707)
本データセットは、旅行記の文章に対して、このような場所参照表現、共参照関係、OSM エントリ URL のメタ情報を人手で付与(アノテーション)したものとなっています。本データセットを用いることで、ジオパージングおよびそのサブタスクを解くための機械学習モデルの学習・性能評価が可能となります。
本データセットの特徴
本データセットの特徴を3つ挙げます。
1. 再現性の担保
本データセットの原データとして、株式会社地球の歩き方から学術研究機関向けに提供されている「地球の歩き方旅行記データセット」を利用しています。そのため、学術研究機関の方限定ではありますが、利用申請書提出により原データを入手後、ATD-MCL のデータ復元スクリプトを適用することで、本データセットを再現できます。
ただし、データ自体の再現性ではなく実験の再現性という観点では、後述する EACL 論文および NLP 論文で行った実験を再現するために、評価対象システムのプログラムおよび OSM 加工後データが必要となります。それらについては以下で後日公開予定です。
https://github.com/naist-nlp/atd-mcl-baselines
2. OSM の採用と、施設名への高いカバレッジ
本データセットで採用している OpenStreetMap(OSM)は、ボランティアベースで構築されているオープン、フリーで大規模な地理データベースかつ世界地図であり、VGI(Volunteered Geographic Information)の一種です。
OSM は、オープン・フリーという観点から学術研究との相性が良く、前述の再現性担保にも役立っています。さらに、我々が OSM に注目したもう1つの観点として、施設を指すエントリが充実している点を挙げます。
既存の英語ジオパージングデータセットでは、地名のみを対象とし、施設名を対象外としていることが多いです。その理由として、地理データベースとしてよく採用されている GeoNames において施設名のエントリがあまり充実していないという点が考えられます。
たとえば、興福寺(Kofukuji)に関するエントリは、GeoNames では奈良県の興福寺のエントリしか確認できませんでしたが2、OSM では宮城県、群馬県、福井県、静岡県、大阪府、奈良県、長崎県など日本各地の興福寺のエントリが登録されていることが確認できます。
本データセット作成後に OSM エントリ URL の付与率を算出したところ、固有名の地名(地域名および地形名)では 79%、固有名の施設名では 74% であり、施設名についてもカバレッジがある程度高いことが確認できました。
3. 非固有名への対応
前述の例文では、「境内」が「興福寺」と同じ場所を指すと解釈し、同一の共参照クラスタを構成した上で、興福寺(奈良県)に関する OSM エントリを割り当てているという状況を表しています。このように本データセットでは、「島」「駅」「そこ」など、固有名ではない一般名詞句や指示代名詞で表された場所参照表現についても、文脈に基づいて可能な限りそれらが指す場所を特定した上で、OSM エントリを割り当てています。
その結果、固有名と非固有名で概ね同数の場所参照表現がアノテーションされています。
データサイズ
本データセットは、旅行記200記事のデータで、場所参照表現 12,171 件が含まれています。詳細は、ATD-MCL の README および後述する arXiv 論文を参照ください。
今後の展望
ATD-MCL 構築の次のステップとして、
- ジオパージングおよびサブタスク向け解析システムの開発
- 「移動軌跡解析」のためのデータセット構築および解析システムの開発
などに取り組んでいます。これらについて言語処理学会第30回年次大会(NLP2024)で発表予定であるほか、本プロジェクトのウェブサイトで既発表論文の情報を公開しています。
関連資料
本データセットについて
本データセットに関する(査読なし)英語論文は以下で公開されています。
- S. Higashiyama et al., Arukikata Travelogue Dataset with Geographic Entity Mention, Coreference, and Link Annotation. May, 2023. https://arxiv.org/abs/2305.13844
上記論文に、システム性能評価等の内容を追加して大幅改訂した論文は、自然言語処理の代表的な国際会議の1つである EACL 2024(Findings)に採択されており、論文は2024年3月17日頃に一般公開される予定となっています。
- S. Higashiyama et al., Arukikata Travelogue Dataset with Geographic Entity Mention, Coreference, and Link Annotation. Findings of the Association for Computational Linguistics: EACL 2024, March, 2024. (To appear)
また、本データセットに関する日本語論文について言語処理学会第30回年次大会(NLP2024)で発表予定で、論文は2024年3月4日に一般公開される予定となっています。
- 東山翔平 他,日本語旅行記ジオパージングデータセット ATD-MCL.言語処理学会第30回年次大会,2024年3月.
「地理空間情報と自然言語処理」研究プロジェクト
我々の研究プロジェクトについては以下のスライドで紹介しています。
その他
以下は、ジオコーディングについて解説している論文です。
- 久本空海 他,場所参照表現と位置情報を紐付けるジオコーディングの概観と発展に向けての考察.言語処理学会第29回年次大会,2023年3月.https://www.anlp.jp/proceedings/annual_meeting/2023/pdf_dir/B11-1.pdf
以下は、OpenStreetMap の学術研究での利用例について紹介、分析、議論している論文です。
- A. Yair Grinberger et al., OSM Science—The Academic Study of the OpenStreetMap Project, Data, Contributors, Community, and Applications. ISPRS International Journal of Geo-Information, 2022. https://www.mdpi.com/2220-9964/11/4/230