LoginSignup
3
2

地図XMLをダウンロードして座標系をWindows PowerShellで調べる(コマンド)

Posted at

これは自分のためのメモですが、このページをご覧になるかたは、登記所備付地図、いわゆる地図XMLについて、

  • 全国でいくつの地図XMLファイルがありますか?
  • 任意座標系のファイルはどのくらいありますか?各ファイルの座標系の一覧は?

なんていう疑問を持っているのではないでしょうか。ここではそんな素朴な疑問への回答を探すための方策をメモします。

はじめに

法務省登記所備付地図(地図XML)は、法務省が2023年1月にG空間情報センターを介して公開しました。その後2023年8月末には更新がされています。

G空間情報センターからは、全国の地番地図のデータが提供されていますが、一方で多くのファイルが任意座標上で管理されており、公共座標系のデータとの整合やGISソフトでの位置合わせが難しいというようなところもあります。

全国の地番地図を扱いたいときに、どの町字、地番区域のデータが任意座標なのかを知ることは、位置合わせのための作業量を見積もるために重要です。よく参照されるが全国で地籍調査が終わったところの割合ですが、それはそのまま地図XMLの割合なのかはわかりません。私は、そもそも地図XML全体のなかでどのくらいのファイルが任意座標なのか整理したいと思い、実験を行いました。

前提条件など

私の環境

  • Windows 11 home
  • Windows PowerShell version 5.1.22621.2506

地図XMLの構造

地図XMLの構造というかファイルの構成ですが、簡単にいうと:

  • 市区町村ごとにZIPダウンロード
  • 各市区町村パッケージにリストとXMLファイル(ZIP)が格納
  • (各XMLの構造、スキーマは仕様書に書いてある)
    となります。詳しく説明します。

(段階1:市区町村ごとのパッケージ)
地図XMLはG空間情報センターからダウンロードするときに、年度別ですが、「市区町村-法務局」のグループでダウンロードできます。複数ファイルがまとまったパッケージでダウンロードできますが、「市区町村コード(5桁)-法務局コード(4桁)-年度(4桁).zip」というファイル名でダウンロードができます。

  • 注意1: 政令指定都市は「区」の単位でダウンロードとなります。
  • 注意2: 同じ市区町村でも複数の法務局がデータを提供しているケースがあります(新潟市北区、岡山県北区など)。このようなところではすべてのデータをそろえたいときには複数のパッケージをダウンロードする必要があります。
  • 注意3: 市町村未定の東京都鳥島は、どのパッケージに含まれるのか見つけられませんでした。

image.png

(段階2:リストと個別のXML)
ダウンロードしてきた「市区町村ー法務局ー年度」のZIPファイルの中には、地番と対応するXMLを整理したリスト(CSV)と、個別のXMLファイル(ZIP)が入っています。リストはCSV形式ですが、XMLファイルはZIPファイルとしてあるので、利用するときは解凍が必要です。
image.png

リストには、各地番に対するファイル名とその出力年月日・時刻が格納されています。各地番に対するファイル名なので1カラム目のファイル名では複数回出てくるファイルもあります。
image.png

複数の地番の筆界未定地はまとめて一つのポリゴンになっているわけですが、リストの中では地番カラムが「筆界未定地-n」として書かれており、続くカラムに含まれる地番が入っています。
image.png

という感じが地図XMLファイルの構造ですが、二段階のZIPファイルがあるのことは少し独特かなと思います。

手順

Step1: 2023年の地図XMLのダウンロード

以前の記事に書きましたが、G空間情報センターのAPIを活用して、地図XMLファイルをダウンロードします。2023年のものをダウンロードしましたが、PCのスリープモードを切るのを忘れていたこともあり丸一日くらいかかりました。

PowerShellで実行
$jsonData = (curl.exe 'https://www.geospatial.jp/ckan/api/3/action/resource_search?query=name:-2023.zip&limit=2005' | ConvertFrom-JSON)

for ($i=0; $i -lt $jsonData.result.results.name.length ; $i++ ){
  curl.exe -LO $jsonData.result.results.URL[$i]
}

image.png

合計2,005ファイルをダウンロードしました。合計サイズは94.5 GB でした。
image.png

400MBを超えるファイルは7つでした。
image.png

Step2: 地図XMLの投影法チェック (時間がかかりすぎ失敗)

以下のような流れで各XMLファイルの投影法をチェックしていきます。
基本的なフローは以下の通りにしようと考えました。

  1. ダウンロードした市区町村パッケージの1つを作業フォルダに解凍
  2. その中のリストを別のところにコピーします。(将来、地番とファイルの関係を使って、地番と投影法の関係を出したいので。)
  3. XMLファイルはZIPになっているので、それをもう一度解凍し、XMLに書いてある投影法を出力します。XMLファイル名、サイズ、投影法を出力するようにします(XMLの読み込みはWindowsPowerShellの機能を使いますが、処理を見ているとここで結構時間を使っているようです。)
  4. 作業フォルダの中を削除して、ここまでのループを繰り返します。

以下のようなスクリプトを作成しましたので、前の工程でダウンロードしたディレクトリに移動して、PowerShellにコピペします。

# 作業フォルダの準備
#rm unpack
#rm list
mkdir unpack
mkdir list

# 出力ファイル名を定義
$result = "xml-projection-list.csv"

# 出力ファイルを初期化
if(Test-Path $result){
  rm $result
}

# XMLの市区町村パッケージ(ZIP)リストの取得
$zipList = Get-Childitem -Path . -filter *.zip

##################
# 各市区町村ごとのループ開始
foreach($zippedPack in $zipList){

  # 市区町村のパッケージfileをunpackフォルダに解凍
  Expand-Archive $zippedPack -DestinationPath unpack
  # unpackフォルダ中のZIPファイルをリスト
  $testList = Get-Childitem -Path unpack -filter *.zip
  # unpackフォルダ内のzipファイルを解凍
  foreach($item in $testList){
    Expand-Archive unpack/$item -DestinationPath unpack 
    Write-host($item)
  }

  # 解凍したlistを移動
  $moveFile = $zippedPack -replace "-2023.zip", ".csv"
  Move-Item unpack/*.csv -Destination list

  # unpackフォルダ内のzipファイルを削除
  rm unpack/*.zip

  # unpack フォルダ内のxmlファイル一覧を取得
  $xmlList = Get-Childitem -Path unpack -filter *.xml

  ##################
  #各XMLファイルについて処理
  foreach($xmlFile in $xmlList){
    cd unpack

    # 初期化 
    if ($chizuXml) {
      remove-variable chizuXml
    }
    if ($chizuContent) {
      remove-variable chizuContent
    }

    # XMLファイルから投影法の取得
    $chizuContent = Get-Content($xmlFile) -Encoding UTF8 #なぜかUTF8
    $chizuXML = [xml]$chizuContent

    # 出力ファイルに書き出し
    cd ..
    Write-Output "$xmlFile, $($xmlFile.Length), $($chizuXML.地図.座標系)" | Add-Content $result

  }
  rm unpack/*
}

PowerShellにコピペすると動きます。2,005の市区町村がそれなりの数の地図XMLファイルを持っているので、仮に1市区町村が100くらいだとして20万件のXMLを読み込まないといけません。かなり時間がかかりそうなので、作業マシンがあれば複数のマシンにデータを分けて処理させたほうが良いかもしれませんね。

メモリも結構使っています↓。
image.png

→ 作業自体は狙った通り進みますが、XMLを構造化して変数に読み込むのに時間がかかるのか、なかなか進みません。8時間くらい作業したところで、全部で10日くらいかかると思ったので方針を変えます。

Step2(再度): 地図XMLの投影法チェック

地図XMLの投影法について、XMLの構造で抜き出すのではなく、テキスト検索で抜き出すことにしました。(Select-String)
したがって、スクリプトを以下のように修正します。

# 作業フォルダの準備
#rm unpack
#rm list
mkdir unpack
mkdir list

# 出力ファイル名を定義
$resultTXT = "projection-list.txt"
$fileSize = "xml-file-size.txt"

# 出力ファイルを初期化
if(Test-Path $resultTXT){
  rm $resultTXT
}
if(Test-Path $fileSize){
  rm $fileSize
}


# XMLの市区町村パッケージ(ZIP)リストの取得
$zipList = Get-Childitem -Path . -filter *.zip

##################
# 各市区町村ごとのループ開始
foreach($zippedPack in $zipList){

  # 市区町村のパッケージfileをunpackフォルダに解凍
  Expand-Archive $zippedPack -DestinationPath unpack
  # unpackフォルダ中のZIPファイルをリスト
  $testList = Get-Childitem -Path unpack -filter *.zip
  # unpackフォルダ内のzipファイルを解凍
  foreach($item in $testList){
    Expand-Archive unpack/$item -DestinationPath unpack 
    Write-host($item)
  }

  # 解凍したlistを移動
  Move-Item unpack/*.csv -Destination list

  # unpackフォルダ内のzipファイルを削除
  rm unpack/*.zip

  # unpack フォルダ内のxmlファイルの座標系を検索。ファイル一覧も記録。
 
  if ($zahyo) {
    remove-variable zahyo
  }
  $zahyo = Select-String "座標系" unpack/*.xml
  Write-Output $zahyo | Add-Content $resultTXT
  #Get-Item unpack/* | Add-Content $fileSize #ファイル名しか記録されない
  Get-Item unpack/* >> $fileSize #ファイルサイズも残る

  # unpackフォルダをクリーン
  rm unpack/*
}

これでも実行するのに2日近くかかりました。いくつかのグループに分けて並行して処理したほうが良かったかもしれません。
なお、5ファイルほどダウンロードが不完全だったようで、できたファイルが2,000だったので、残り5ファイルは改めてダウンロードして実行しました。

こんな感じでリストができる。
image.png

  • projection-list.txt: xmlファイルとその投影法(座標系)
  • xml-file-size: zipを解凍したときにlsコマンドを実行して各ファイルのサイズをメモ
  • listのフォルダ: zipファイルを解凍したときに入っている{市区町村コード}-{法務局コード}-search-list.csv を移動してきています。一つのzipファイルに一つなので全部で2,005です。各地番の含まれるファイルを示すので行数は相当になります。

なお、リストで座標系はSelect-Stringにしたので、地図名に「座標系」を含むファイルを3つ拾っていました。それらを削除します。
image.png

こうしてできたリスト↓
https://raw.githubusercontent.com/ubukawa/chizu-xml1/main/xml-projection-list.txt

結果

すべてのXMLファイルについて投影法(座標系)のリストができました。
image.png

<いえること>

  • 2023年度の地図XMLは全部で315,034ファイルがあります。(市区町村-法務局 別には2,005のzIPファイル)
  • XMLファイル数ベースでは各座標系の割合は以下の通りでした。
    image.png

まとめ

地図XMLについて少し深く調べました。ファイル数ベースでは任意座標が57%と分かりました。
地図XMLファイルの投影法一覧も得られました。今後、例えば市区町村ごとにファイル数ベースですが、任意座標系の割合を出すこともできます。

別途、地番のリストも得ることができました。ファイルサイズが大きいですが、うまく使えば地番ごとの投影法のリストも作ることができるはずです。

参考ページ

3
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
3
2