データの可視化シリーズ 第1弾 - はじめに
こんにちは
Exploratoryの白戸です。
今回から、データの可視化(Data Visualization) シリーズを書いていきます!
データの可視化とは
データを可視化するだけでも、どこにどんな問題がありそうか直感的に知ることができます。
例えば、各国の売上を知りたいとします。
このようなデータでは、各国の売上を比べることは難しいでしょう。
しかし、下記のチャートのようにデータを可視化するだけで、どの国の売上が高いか低いかなどがすぐにわかります。
そして、可視化したチャートから得られる情報を観察し、新たな質問を見つけることで次のステップに進むことができます。
今回のシリーズではこの可視化の部分を中心に紹介していきます。
使用データ概要&ダウンロード
データの可視化シリーズではactivitiesというデータを使用していきます。
このactivitiesは、世界中でPC用のソフトウェアを提供している企業を想定しています。そして、経営上の目標は売上を伸ばすことです。
データの項目については下記の通りです。
データ項目
- Country(国名)
- userid(ユーザー識別番号)
- first_activity_date(最初のアクセス日)
- last_activity_date(最後のアクセス日)
- os(使用端末)
- counts(アクセス回数)
- duration(最初のアクセスから最後のアクセスまでの経過日数)
- date_month(初回アクセス月)
使用しているactivitiesのデータを公開するので、インポートして、次回から始まる可視化シリーズを一緒に進めていきましょう!
データはこちらからダウンロードしてください。
データのインポートの仕方
ダウンロードしたactivitiesのデータをインポートしていきましょう。
まず、activitiesのデータを保存したいプロジェクトを選択してください。
もし、プロジェクトが無い場合は、新規作成をクリックしてお好きな名前をつけてプロジェクトを作成してください。
次に、データフレーム横にある+ボタンをクリックし、EDFをインポートという項目を選択しましょう。
先ほどDLした、activities.edfのファイルを選択してください。すると下記のように、テーブルが表示されると思いますので、確認を押してください。
名前のところに、activitiesと入力し、作成をクリックしてください。
これで、インポート完了です。
データをインポートすると、次のようにサマリ・ビューが最初に表示されます。
このサマリ・ビューをみると、11カ国(Other含む)からアクセスされていることがわかります。また、useridが一意な数で2,885あることからユーザー数は2,885人いるようです。durationからはユーザーの平均経過日数は116日で、中央値は110日のため、あまりばらつきはありませんね。
これで、activitiesのインポートとデータの概要を掴めましたね。それでは次回から、データの可視化を実際に手を動かしながら学んでいきましょう!
初回は**データの可視化シリーズ 第2弾 - バーチャートを使って「比べる」** についてです。
ぜひ読んでみてください!
Exploratoryデータ・アカデミー
データの可視化、またはデータ分析に関してもっと知りたい、学びたいという方は、私達が提供しているトレーニングやセミナーに参加してみてください。
こちらのExploratoryデータ・アカデミーのページに詳細情報があります。
データを使ってより良い意思決定を行っていきたいと言う方は、ぜひこの機会に参加をご検討ください!