1. はじめに
こんにちは、普段は自分のブログでIT関係の記事を書いているなりかくんです。
今回は、気象庁の震度データベースから地震の過去データを取得して、delikaというサービスで分析してみたいと思います。
この記事は、delika Advent Calendar 2022の記事です。
ちなみにdelikaはこの記事で初めて触るため初めて触るという観点から見て少しレビューも含めてみようと思います。
2. delikaってなに?
私もdelikaというサービスを知らなかったので調べてみました。その調べた内容を簡単にまとめてみます。
- delikaは基本無料で使えるソーシャルデータプラットフォームのこと
- 収集したデータを公開することができる
- delikaや企業・一般ユーザーが共有・公開したデータを使って分析ができる
- 自分で収集したデータと企業が収集したデータを組み合わせることも可能(?)
- SQL構文でデータを操作できる
- WebAPIも用意されているので開発者には美味しく味わえる
そして、データを活用して顧客データや売り上げデータから売り上げを更によくしたり新しいビジネスを生むことが出来るみたいです。
3. アカウント登録する
このサービスを使うには、アカウント登録が必要です。アカウント登録には、GitHubまたはメールアドレスでの登録が可能です。
今回私はGitHubを使って登録しましたが、GitHubでもメールアドレスの確認はあるみたいでメールアドレスの確認をスキップ出来たりはないみたいです。
4. データセットを作成する
では、ホーム画面からデータセットを作成してみましょう。[+]を押します。
そして、作成画面が出てきました。ここでデータセットの名前やデータセットの種類などを設定できます。
項目 | 内容 |
---|---|
Account | データセットを作るアカウント(チームの場合はチーム)を選択 |
Dataset Name | データセットの名前、これがURLにも使われる |
Dataset Type | データセットの種類 |
Dataset Visibility | データセットを全体に公開するか |
License | データのライセンスをどうするのか |
5. データをアップロードする
データセットのページで「Upload Files」のタブからデータファイルを選択すると自動でアップロードされます。非常に簡単ですね。
アップロードしたファイル名をクリックするとデータをプレビューして確認することが出来ます。
6. データを分析する
では、アップロードしたデータセットからSQLで地震データベースのデータを分析してみたいと思います。
なお、今回は2011年3月11日から2022年12月8日の震度4以上のデータとします。
SQLの実行は、データ横の三角フラスコのマークをクリックすることで実行画面に移動することが出来ます。
今回は震源地別に地震が発生している回数を調べてみようと思います。
SQL文は以下のようになります。非常に簡単なSQL文です。
SELECT
t.epicenter_place_name,
COUNT(t.epicenter_place_name) as name_cnt
FROM
[narikakun/EarthQuakeList/earthquake-2011-03-11-2022-12-08.csv] t
GROUP BY t.epicenter_place_name
実際に実行してみると、以下のようになります。しっかりと実行が出来ていますね。
また、プレビューに表示されているデータは一部なのでcsvをダウンロードすると全てのデータを閲覧できます。
SQL文の中で回数の多い順に並び替えを行いたかったのですが、実行してみると有料プランにならないと使えないみたいなのでExcelを使って多い順に並び替えました。(一部のみ抜粋)
震源地名 | 回数 |
---|---|
福島県沖 | 118 |
熊本県熊本地方 | 117 |
宮城県沖 | 60 |
茨城県南部 | 48 |
茨城県沖 | 45 |
岩手県沖 | 45 |
福島県沖と熊本地方は地震の発生回数が多いことが分かりますね。
7. おわりに
delikaを使うと、データ分析を行う事が簡単に出来ます。無料プランではSQL文などに制限があり少し難しい点などがあるかもしれませんが、公開データで使えるデータなどがありますのでぜひ活用してみてください。
また、今回作成したデータはパブリックで公開していますので良ければご利用ください。
https://delika.io/narikakun/EarthQuakeList
以上、なりかくんがお送りしました。最後までお読みいただきありがとうございました。