LoginSignup
2
2

More than 5 years have passed since last update.

鳥取県オープンデータカタログをスクレイピングするツールの紹介の巻

Last updated at Posted at 2015-12-01

はじめに

鳥取県では、鳥取県オープンデータカタログというオープンデータのカタログサイトを公開しています。

分類や部局ごとに整理されており、これはこれで使いやすいのですが、もう少し一覧性の良い形式で見たいことがあります。

鳥取県ではオープンデータカタログ一覧がCSV形式で公開されており、

  • No
  • 担当課(部・局)
  • 担当課(室)
  • データ名
  • データ形式
  • URL

の項目がリストアップされていますが、

  • 分類
  • 再配布可否
  • 商用利用可否
  • データ年次
  • データの更新間隔

等もせっかく公開されているのですからこれも表にまとめて見たいところです。

というわけで、鳥取県オープンデータカタログをスクレイピングして、オープンデータの一覧をCSV形式やJSON形式へ簡単に変換できるツール「tottori-opendata-catalog」を作りました。

このツールはRuby言語用のライブラリ(RubyGems)として公開しています。また、ソースコードもGitHubで公開しています。

使い方

Rubyを普段お使いの方はGitHubのリポジトリ https://github.com/mh61503891/tottori-opendata-catalog を見たほうが早いです:wink:

Ruby(rubyコマンド)やRubyGems(gemコマンド)の使い方の解説は他のサイトを参考にしてもらうとして、簡単な使い方をば…。

tottori-opendata-catalogをインストールするには以下のコマンドを実行します。

gem install tottori-opendata-catalog

インストールすると、ライブラリに加えてコマンドラインツールもインストールされます。

tottori-opendata-catalog csv > catalog.csv

のようにすればCSV形式のファイルが保存されます。

出力サンプルは https://github.com/mh61503891/tottori-opendata-catalog/blob/master/example/example.csv に公開しています。

また、JSON形式でも出力できます。コマンドラインオプションのcsvの部分をjsonに変更するだけです。

tottori-opendata-catalog json > catalog.json

このコマンドラインツールはデータをキャッシュします。1度実行するとしばらくはカタログサイトから再取得しません。もしキャッシュを破棄して再度取得し直したい場合は、--no-cacheオプションを使います。

tottori-opendata-catalog csv --no-cache > catalog.csv

とすれば最新のデータが取得できます。

ちなみに、出力されるデータ形式は、UTF-8ですので、Excelで開くには少し工夫が必要かもしれません。。。LibreOfficeのCalcなどでも開けます。

普通にライブラリとして使いたい場合は https://github.com/mh61503891/tottori-opendata-catalog を参考にしてください。

今後の展望

鳥取県のカタログサイトから他のカタログサイトへ(UrbanDataChallenge Dat PotalLinkData.org)の自動同期とかできないかなぁと思っています:wink:

2
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2
2