元ネタ
町名の最後の一文字だけで書いた東京の地図できた…! pic.twitter.com/UKV4rwuPYo
— 三土たつお (@mitsuchi) 2019年6月21日
3年前にやったやつ
- 前回は地名のデータを使うために、国土交通省より公開されている位置参照情報を使用しましたが、最近デジタル庁から公開されたアドレス・ベース・レジストリに市区町村マスター データセットが含まれているのでこのデータを使ってやってみます
国土交通省国土政策局GISHP【インターネットサービス】
http://nlftp.mlit.go.jp/isj/index.html
アドレス・ベース・レジストリ
https://www.digital.go.jp/policies/base_registry_address/
対象
- 今回は群馬県を対象に可視化します
データフォーマットを確認
- アドレス・ベース・レジストリで公開されているデータフォーマットを確認してみます
- 町字名は「03町字」シートのNo16「大字・町名」 、No22「小字名」に入っていそうです
* 町字って何?って人はアドレスベースレジストリのページの図1を見るとわかりやすいと思います - 文字を地図上にプロットするための位置情報は「07町字位置参照」に代表点の緯度・軽度が入っているのでこちらが使えそうです
- データとして町字名と位置情報が分かれているので全国地方公共団体コード+町字IDで結合します
- 町字名は「03町字」シートのNo16「大字・町名」 、No22「小字名」に入っていそうです
データを確認
-
町字名
群馬県 町字マスター データセット
https://registry-catalog.registries.digital.go.jp/dataset/o1-100005_g2-000003 -
位置情報
群馬県 町字マスター位置参照拡張 データセット
https://registry-catalog.registries.digital.go.jp/dataset/o1-100005_g2-000006
文字コードの確認
- ファイルの文字コードを確認します
% file --mime mt_town_*
mt_town_pos_pref10.csv: text/csv; charset=utf-8
mt_town_pref10.csv: text/csv; charset=utf-8
- 文字コードがUTF-8!
- 前回のデータはShift-JISからUTF-8に変換する処理が必要だったのでこれだけでちょっと感動
データの件数を確認
% wc -l mt_town_*
4413 mt_town_pos_pref10.csv
4350 mt_town_pref10.csv
- 件数が異なりますね… これは中身を見る必要がありそう
件数が異なる件を確認
- とりあえずhead
% head mt_town_*
==> mt_town_pos_pref10.csv <==
全国地方公共団体コード,町字id,住居表示フラグ,代表点_経度,代表点_緯度,代表点_座標参照系,代表点_地図情報レベル,ポリゴン_ファイル名,ポリゴン_キーコード,ポリゴン_データフォーマット,ポリゴン_座標参照系,ポリゴン_地図情報レベル,位置参照情報_大字町丁目コード,位置参照情報_データ整備年度,国勢調査_境界_小地域(町丁・字等別),国勢調査_境界_データ整備年度
102016,0000101,0,139.105506,36.451964,EPSG:6668,25000,,,,,,,,,
102016,0000102,0,139.067506,36.449297,EPSG:6668,25000,,,,,,,,,
102016,0000103,0,139.063811,36.436714,EPSG:6668,25000,,,,,,,,,
102016,0000104,0,139.06745,36.443019,EPSG:6668,25000,,,,,,,,,
102016,0000105,0,139.071561,36.437631,EPSG:6668,25000,,,,,,,,,
102016,0000106,0,139.093978,36.454492,EPSG:6668,25000,,,,,,,,,
102016,0000107,0,139.072144,36.483603,EPSG:6668,25000,,,,,,,,,
102016,0000108,0,139.085978,36.430631,EPSG:6668,25000,,,,,,,,,
102016,0000109,0,139.091061,36.430658,EPSG:6668,25000,,,,,,,,,
==> mt_town_pref10.csv <==
全国地方公共団体コード,町字id,町字区分コード,都道府県名,都道府県名_カナ,都道府県名_英字,郡名,郡名_カナ,郡名_英字,市区町村名,市区町村名_カナ,市区町村名_英字,政令市区名,政令市区名_カナ,政令市区名_英字,大字・町名,大字・町名_カナ,大字・町名_英字,丁目名,丁目名_カナ,丁目名_数字,小字名,小字名_カナ,小字名_英字,住居表示フラグ,住居表示方式コード,大字・町_通称フラグ,小字_通称フラグ,大字・町外字フラグ,小字外字フラグ,状態フラグ,起番フラグ,効力発生日,廃止日,原典資料コード,郵便番号,備考
102016,0000101,3,群馬県,グンマケン,Gumma,,,,前橋市,マエバシシ,Maebashi-shi,,,,,,,,,,梶谷,カジヤ,,0,0,0,1,0,0,3,0,1947-04-17,,0 ,,
102016,0000102,3,群馬県,グンマケン,Gumma,,,,前橋市,マエバシシ,Maebashi-shi,,,,,,,,,,原上,ハラカミ,,0,0,0,1,0,0,3,0,1947-04-17,,0 ,,
102016,0000103,3,群馬県,グンマケン,Gumma,,,,前橋市,マエバシシ,Maebashi-shi,,,,,,,,,,原西,ハラニシ,,0,0,0,1,0,0,3,0,1947-04-17,,0 ,,
102016,0000104,3,群馬県,グンマケン,Gumma,,,,前橋市,マエバシシ,Maebashi-shi,,,,,,,,,,原中,ハラナカ,,0,0,0,1,0,0,3,0,1947-04-17,,0 ,,
102016,0000105,3,群馬県,グンマケン,Gumma,,,,前橋市,マエバシシ,Maebashi-shi,,,,,,,,,,原東,ハラヒガシ,,0,0,0,1,0,0,3,0,1947-04-17,,0 ,,
102016,0000106,3,群馬県,グンマケン,Gumma,,,,前橋市,マエバシシ,Maebashi-shi,,,,,,,,,,高松,タカマツ,,0,0,0,1,0,0,3,0,1947-04-17,,0 ,,
102016,0000107,3,群馬県,グンマケン,Gumma,,,,前橋市,マエバシシ,Maebashi-shi,,,,,,,,,,山口,ヤマグチ,,0,0,0,1,0,0,3,0,1947-04-17,,0 ,,
102016,0000108,3,群馬県,グンマケン,Gumma,,,,前橋市,マエバシシ,Maebashi-shi,,,,,,,,,,時中,トキナカ,,0,0,0,1,0,0,3,0,1947-04-17,,0 ,,
102016,0000109,3,群馬県,グンマケン,Gumma,,,,前橋市,マエバシシ,Maebashi-shi,,,,,,,,,,時東,トキヒガシ,,0,0,0,1,0,0,3,0,1947-04-17,,0 ,,
- 雑に重複を見てみる
- 2件になるのが正常なので、重複や片方にしか存在しないデータが存在するっぽい
% cat <(cut -d, -f 1,2 ./mt_town_pref10.csv) <(cut -d, -f 1,2 ./mt_town_pos_pref10.csv)|sort|uniq -c|sort -r | head -n 88
4 102016,0179002
4 102016,0106005
3 102016,0194002
3 102016,0194001
3 102016,0192001
3 102016,0191004
3 102016,0191001
3 102016,0185003
3 102016,0185002
3 102016,0185001
3 102016,0179004
3 102016,0179003
3 102016,0178000
3 102016,0177003
3 102016,0177002
3 102016,0177001
3 102016,0175002
3 102016,0153003
3 102016,0153002
3 102016,0153001
3 102016,0152004
3 102016,0152003
3 102016,0152002
3 102016,0152001
3 102016,0150000
3 102016,0136005
3 102016,0136004
3 102016,0130002
3 102016,0130001
3 102016,0123000
3 102016,0118002
3 102016,0118001
3 102016,0117001
3 102016,0112004
3 102016,0112003
3 102016,0112002
3 102016,0112001
3 102016,0111003
3 102016,0111002
3 102016,0111001
3 102016,0108000
3 102016,0106001
3 102016,0100003
3 102016,0100002
3 102016,0100001
3 102016,0099000
3 102016,0095000
3 102016,0093000
3 102016,0092002
3 102016,0092001
3 102016,0092000
3 102016,0079001
3 102016,0071002
3 102016,0071001
3 102016,0061003
3 102016,0061002
3 102016,0061001
3 102016,0034002
3 102016,0034001
3 102016,0032003
3 102016,0032002
3 102016,0032001
3 102016,0031002
3 102016,0031001
3 102016,0020005
3 102016,0020004
3 102016,0020003
3 102016,0020002
3 102016,0020001
3 102016,0016004
3 102016,0016003
3 102016,0016002
3 102016,0016001
3 102016,0011000
3 102016,0010002
3 102016,0010001
3 102016,0009003
3 102016,0009002
3 102016,0009001
3 102016,0006000
3 102016,0005004
3 102016,0005003
3 102016,0005002
3 102016,0005001
3 102016,0002000
2 全国地方公共団体コード,町字id
2 105252,0012000
2 105252,0011000
- 正常じゃなさそうなデータを見てみる
- mt_town_pos_pref10.csvの方は重複してるデータがある
- mt_town_pref10.csvは効力発生日が異なるデータが存在する
- 南町二丁目、城東町五丁目
-
前橋市の町名一覧/前橋市(https://www.city.maebashi.gunma.jp/soshiki/shimin/shimin/gyomu/2/8/3897.html)
- このページによるとどちらも住居表示・地番混在地区らしい
-
群馬県 - 県内市町村の区域内の町又は字の区域の新設等の状況(https://www.pref.gunma.jp/07/a4910005.html)
- 一部のみが住居表示対応したのかな?
% grep "102016,0179002" ./mt_town_*
./mt_town_pos_pref10.csv:102016,0179002,1,139.066168,36.37485,EPSG:4612,25000,,,,,,102010179002,2020,,
./mt_town_pos_pref10.csv:102016,0179002,1,139.066168,36.37485,EPSG:4612,25000,,,,,,102010179002,2020,,
./mt_town_pref10.csv:102016,0179002,2,群馬県,グンマケン,Gumma,,,,前橋市,マエバシシ,Maebashi-shi,,,,南町,ミナミチョウ,Minamicho,二丁目,2チョウメ,2,,,,0,0,0,0,0,0,1,1,2022-02-02,,0 ,,
./mt_town_pref10.csv:102016,0179002,2,群馬県,グンマケン,Gumma,,,,前橋市,マエバシシ,Maebashi-shi,,,,南町,ミナミチョウ,Minamicho,二丁目,2チョウメ,2,,,,1,1,0,0,0,0,1,1,1947-04-17,,0 ,,
% grep "102016,0106005" ./mt_town_*
./mt_town_pos_pref10.csv:102016,0106005,1,139.082409,36.39229,EPSG:4612,25000,,,,,,102010106005,2020,,
./mt_town_pos_pref10.csv:102016,0106005,1,139.082409,36.39229,EPSG:4612,25000,,,,,,102010106005,2020,,
./mt_town_pref10.csv:102016,0106005,2,群馬県,グンマケン,Gumma,,,,前橋市,マエバシシ,Maebashi-shi,,,,城東町,ジョウトウマチ,Jotomachi,五丁目,5チョウメ,5,,,,0,0,0,0,0,0,1,1,2022-02-02,,0 ,,
./mt_town_pref10.csv:102016,0106005,2,群馬県,グンマケン,Gumma,,,,前橋市,マエバシシ,Maebashi-shi,,,,城東町,ジョウトウマチ,Jotomachi,五丁目,5チョウメ,5,,,,1,1,0,0,0,0,1,1,1947-04-17,,0 ,,
% grep "102016,0194002" ./mt_town_*
./mt_town_pos_pref10.csv:102016,0194002,0,139.049198,36.373653,EPSG:4612,25000,,,,,,102010194002,2020,,
./mt_town_pos_pref10.csv:102016,0194002,0,139.049198,36.373653,EPSG:4612,25000,,,,,,102010194002,2020,,
./mt_town_pref10.csv:102016,0194002,2,群馬県,グンマケン,Gumma,,,,前橋市,マエバシシ,Maebashi-shi,,,,古市町,フルイチマチ,Furuichimachi,二丁目,2チョウメ,2,,,,0,0,0,0,0,0,1,1,2022-02-01,,0 ,,
- 今回は一旦見なかったことにする
可視化
全て
地理的特徴
宿
文字の出現回数
- 前回の東京の分析と比較して
- 田がトップなのは共通
- 群馬は2~3位が原・沢、東京は丘・川
- 地理的特徴が出てるのでは
- 群馬は東西南北、前後央など方角を表す地名が東京都比べて少ない気がする