日本政府が公開しているデータセットを一括して検索できるデータカタログサイトがdata.go.jpである。ここから何かしらのデータを得て分析してみたい。まずは,そのようなデータがあるかを見ていく。
PDFは処理が面倒なので,XLSX形式のデータを検索することにした。次のような手順を作成した。
データ取得する手順
パラメタ(「q」)は,「res_format:XLSX」。
パラメタ(「rows」)は,50。
URIは,「https://www.data.go.jp/data/api/action/package_search」
HTTPでURIへパラメタを送信する。
データは,それをJSON形式として読み取ったもの。
タイトルは,{}。
データ(「result」)(「results」)をデータムへそれぞれ繰り返す
タイトルへデータム(「title」)を追加する。
繰り返し終わり
タイトルを返す。
終わり
パラメータはPOSTで送れば良いことになっている(CKAN APIの仕様上一部のAPIはGETでも使える)。今回は,クエリqに対してフォーマットを指定する「res_format:XLSX」を設定している。また,デフォルトだと10個しか結果が返ってこないので,rowsに50を設定している。
返答はJSONになっているので,JSON形式として読み取る
手順で辞書に変換している。また,プロデルでは配列の宣言は不要だが,これをしないと追加する
手順が正しく動作しないのでタイトルは,{}
で初期化している。
以下のコードで実行する。
データ取得。
それをタイトルにそれぞれ繰り返す
タイトルを報告。
繰り返し終わり
結果は次の通り。
きちんと取れることが分かったので,次はその他のAPI操作も含めて種類にまとめたい。