はじめに
昨今、各公共団体のオープンデータ推進への取り組みが活発となり、それらオープンデータを使用した事例やハッカソンなども数多く行われるようになってきています。
大変素晴らしいことですし、自分もそうしたオープンデータをありがたく享受している一人です。
ここでは、オープンデータを使わせていただいている一人として、こうなるともっと良いのにな、と思うところをいくつか挙げていけたらと思います。
※今回はたまたまこちらのデータをベースにさせてもらっていますが、決してあげつらっているわけではありません。
何のデータなのか わかりにくい
たとえば世帯の家族類型別一般世帯数というデータに興味を持った場合、このデータについてもう少し具体的に知りたいと思ます。
しかしこのデータには具体的な例がありません。いきなりデータのダウンロード画面です。
ただ定義書
というボタンがあるので、これを見ればもう少し詳細がわかりそうです。
定義書
ボタンを押すと、
T001080.pdf
といった無機質なファイル名で定義書がダウンロードされます。
ダウンロードされたPDFを開いてみると
内容はこれだけです。
この程度であれば、ダウンロードせずに確認する方法があったほうが便利ではないかと思います。
また、ダウンロードした場合も、T001080.pdf
というファイル名からだけでは何の定義書かわかりにくいです。
定義書のファイル名にデータ内容を併記する、データ表記の後ろに定義書と同じコード名を表示する等があればわかりやすいのかなと思います。
一括ダウンロードがない
このデータは1ファイル数百Kbyte程度とそれほど大きくありませんが、ダウンロードは都道府県単位のみとなっています。
こういった場合、全国一括ダウンロードがあるとよいかと思います。
また、データがそれほど大きくない場合、1ファイルにまとまっていたほうがありがたいです。
この程度のデータでしたら、mapbox等で一括で読み込んで表示することも容易です。
1ファイルしかないのに圧縮されている
数百キロバイト程度のデータですが、ダウンロードすると1ファイルごとに圧縮されています。
全国のデータを利用したい場合は、全都道府県のデータを展開する必要があります。
常日頃からデータ処理をされているような人はバッチ処理をするので苦になりませんが、そういった人ばかりがデータを使う想定ではもったいないと思います。
圧縮された中のファイル名が同一
今回のデータでは該当しませんが、各圧縮ファイルの中身がすべてdata.csv
など同名、というのもよく見かけます。
全国のデータを利用したいときには都道府県分のデータを展開する必要があり、中身のファイル名が同じ場合はさらにリネームしたりといった処理が必要となるため、ファイル名には個別の名前がついているのが良いと思います。
CSV形式なのに拡張子が.txt
自前で処理する場合は拡張子は何でも構わないのですが、事前にExcelでデータをざっと見てみよう、と思ったときに.txtだと表として表示されなかったりします。
データがShift-JISで保存されている
こちらは逆に、Excelで見るような場合は問題ありませんが自分でデータを処理したい場合には前処理が増えてしまいます。
また、他のエディターで見た時に文字化けしてプレビューが困難になることもあります。
一般的にはUTF-8
で保存されていたほうが使いやすいかと思います。
説明のない記号が使用されている
データを見ていくと、謎の記号がいつくか出てきます。
X
, -
はデータが取得できなかった、あるいはデータ不要のような意味合いなのかなと類推はできるのですが、定義書には説明がありません。
HTKSYORI
,GASSAN
等の説明もありません。調べてくださっている方はいますが、こういった調査も時間の無駄や解釈の間違いにつながるので、定義書に記載しておいたほうが良いと思います。
階層の違うデータが含まれる
KEY_CODE
を見ると、桁数がバラバラです。これは、「市」「市/町」「市/町/字」と階層の違うデータが混在しているためです。
この例だと、22010020
(大字後潟)は2201002001
(大字後潟字平野)と2201002002
(大字後潟字大原)の合算値になっています。
こういった階層の違うデータは分けておいてもらったほうが処理がしやすいです。
また、2201002000
(10桁の数字で下2桁が00)と22010020
(8桁の数字)は実質同じ扱いのようです。
そのため、
のように重複する一方のデータが-
で埋められていたり、
のように2201155000
に該当するものがなかったりと統一性のないものになっています。
このあたりも、データを整形する場合には下2桁チェックやデータがなかった場合のエラー対策など地味に時間がとられます。
位置情報に関連するデータなのに緯度経度情報がない
地価公示地点データ等、位置情報に関連するデータの場合、住所があっても緯度経度の情報がなければ地図上にマッピングすることができません。
その場合、ジオコーディング サービス等を使用して緯度経度を取得する等の前処理が必要となります。
データの不備を発見した際の問い合わせ先がわかりにくい
データをコンピューターで処理して使用する際、データの不備を発見することがあります。
例えば今回使用した世帯の家族類型別一般世帯数では、福島県のデータtblT001084C07.txt
で
07545,1,大熊町,,0,,,799,33,29,20,2,4,-,1,64
:
07546,1,双葉町,,0,,,-,-,-,-,-,-,-,-,-
東京都のデータtblT001084C13.txt
で
13402,1,青ヶ島村,,0,,,118,28,28,13,11,-,8,12,26
のように、一部のデータがなく、そのままでは使用できない箇所がありました。
大熊町、青ヶ島村に関しては、何らかの理由で該当するデータを取得できなかったのかなと類推することもできますが、
双葉町に関してはすべてのデータがありませんでした(後述)。
また、よく見かけるパターンで、
数値が入るべきところがnull
となっていたり、
”\""
のような入力ミスでカラムがずれたりといったものがあります。
こんな時はなるべく報告するようにしているのですが、
報告先がわかりにくいこともよくあります。
今回のサイトのように、問い合わせ先が常にページに表示されているなど、報告先がわかりやすいほど、データの修正が行き届き、使いやすいデータになるのではないかと思います。