はじめに
なにやらキャンペーンを行っているみたいなので、まずはPythonでデータを取り出すところまでを調べてみた。
delika?
公式にはこのように書かれています。
"delika" is a data sharing and analysis platform for people involved in data. You can host your data and leverage your analysis with any data shared on the platform.
"delika "は、データに関わる人々のためのデータ共有・分析プラットフォームです。プラットフォーム上で共有されているあらゆるデータをホスティングし、分析を活用することができます。
データのGithubを目指す!ということなので、応援したいと思います。
対象のデータはこちら。
データサイエンティスト スキルチェックリスト ver3.01
一般社団法人データサイエンティスト協会 スキルチェックリストより引用
データ出典
Requirements
Python 3.7+
作業開始
Pythonのライブラリが用意してあるので、取得したいデータセットが決まったら簡単に取得できます。
ライブラリのインストール
まずはライブラリをインストールします。
環境に応じてどちらかを実行してください。私は新しい環境を作成して、下のコードを実行してみました。
# delikaのclientのみ
pip install --extra-index-url=https://docs.delika.io/python/ delika
# delikaのclientとPandas他、必要なパッケージ
pip install --extra-index-url=https://docs.delika.io/python/ delika[DataFrame]
JWTの取得
token = delika.new_token(host= "https://api.delika.io/v1", open_browser = "true")
実行すると、ログイン画面になり、ログインに成功するとJWTの取得ができます。
一度save
メソッドを実行しておくと、しばらくJWTの取得は不要です。
保存したJWTをロードしてclient
変数にいれます。
token.save()
client = delika.load_client()
DataFrameで取得
delika.pandas.read_delika_data
メソッドを使用して、データをDataframe
として取得します。
# データフレームで取得
df1 = delika.pandas.read_delika_data(account_name="connecto-data", dataset_name="ds-skills", data_name="biz.csv", client= client)
結果
無事取得できています。
まとめ
簡単にPythonで取得ができました。自分の手元のデータをアップするモジュールも用意されていて、オープンデータと掛け合わせて新しい発見をする・・ということが増えてきたら嬉しい。次回はこのデータを使用してテキストアナリティクスにチャレンジしてみようと思います。