はじめに
東京都中央区のオープンデータを何かに使ってみようと思ったので、まずは公開情報の csv や xls ファイルを json に変換してみました。
今回は、Elasticsesarch の machine learning のサブ機能を使って csv から json に変換してみたいと思います。
データの取得
こちらに公開情報がありますが、まずは「区内の公園一覧(2017年9月20日更新)(CSV:4KB)」から手を付けました。
こちらのデータには公園の名称、所在地、緯度、経度が入っています。
まず文字コードを utf8 に変換します。
iconv -f sjis -t utf8 koenichiran.csv > koenichiran.utf8.csv
地域,名称,住所,緯度,経度
京橋,楓川久安橋公園,京橋一丁目十九番十三号先,35.6746531056 ,139.7776647708
京橋,水谷橋公園,銀座一丁目十二番六号,35.6711857484 ,139.7731931217
京橋,京橋公園,銀座一丁目二十五番二号,35.6697388867 ,139.7746596645
データの変換
Elasticsearch 7.6.0 の Data Visualizer を使用して変換します。
Import data をクリックします。
CSV ファイルを drag and drop した後の画面
Import を押して後の画面
Advanced タブを選択して Mapping でフィールド名を日本語から英語に変換します。
ちなみに全画面の Override settings からも可能。
Import をクリックします。
Import complete になっていれば成功!
今回は取り込み先のインデックスに 「park」 を指定したので、そこにデータが入っている事を確認
まあこんな事をしなくても、この辺のツールでコマンドラインからも変換は可能ですが、今回はあえて Elasticsesearch の機能を試してみました。
csvtojson koenichiran.utf8.csv > koenichiran.json