ここではD-Oceanを使ってデータを取得し、pythonのpandasを使って処理することを考えます。
目次
・D-Oceanのログインから
・BigQueryとは何か
・BigQueryにおけるSQL文
・csvデータの読み込みと分析
D-Oceanのログインから
D-Oceanはデータプラットフォームであり、いろいろな種類のデータを使うことができる。データ処理の練習したい人にはおすすめかも。右上のログインボタンを押して、Google アカウントなどでログインしよう。
【注意】
授業などでGROUPでデータが共有されることもある。
GROUP内のデータを使う場合、GROUP をそのまま押してはいけない。
GROUPを押してプルダウンメニューが出たグループをクリックしないと、グループ内に共有されたデータは見ることができない。
なんというシステムでしょう。。。
これでグループ内で共有されたデータは見れるはずなので、ひとつクリックしてみよう。
クリックすると以下のようなウィンドウになる
下にcomment、queryがあるので、queryを押してみよう!
ここからはqueryでsql文を書くことになる。
BigQueryとは何か
BigQueryに興味がある人は以下のリンクからみてみるのが一番早いと思われる。
https://thinkit.co.jp/story/2015/08/27/6346
BigQueryにおけるSQL文
SQL文はあんまり詳しくないので、以下の基本的な文法構造だけのせておきます。
SELECT column FROM table_name
が基本構造で、*はすべての列、LIMITは何行か指定して選ぶことができる。
SQLはムズイです!
csvデータの読み込みと分析
csvのデータはQueryからcsvをプルダウンで選んだ後、ダウンロードできる。
今回は1000行だけダウンロードする。
csvファイルをダウンロードしたらここからはpythonの出番。
このcsvファイルをダウンロードしたら、テキストエディタをなにか開いてpythonファイルをつくろう。
import pandas as pd
import matplotlib.pyplot as plt
data = pd.read_csv('downloads/data/file_name.csv')
data.tail()
#下から5行取得可能
pandasはpythonで使えるめっちゃはやいエクセル、だと勝手に考えている。
pd.read_csv()という関数でcsvファイルをpandasのdataframe(エクセルの表みたいな)に落とし込むことができる。
これでdataを料理する準備はできました!
ちなみに上から5行抽出したい場合は以下のhead()を使って確認することができる。
data.head()
Name_ | location | latitude | longitude | phone |
---|---|---|---|---|
0 | 関子ども家庭支援センター | 練馬区関町北1-21-15 | 35.726719 | 139.578657 |
1 | 練馬子ども家庭支援センター(児童福祉担当係石神井) | 練馬区石神井町3-30-26 石神井庁舎4階 | 35.743405 | 139.602759 |
2 | 練馬子ども家庭支援センター練馬駅南分室 | 練馬区豊玉北5-18-12 | 35.737083 | 139.654433 |
3 | 光が丘子ども家庭支援センター | 練馬区光が丘2-9-6 光が丘区民センター6階 | 35.759233 | 139.629303 |
4 | 練馬子ども家庭支援センター | 練馬区豊玉北6-12-1 東庁舎4階 | 35.735650 | 139.652422 |