Dataikuで時系列データのグラフを作成してみる
はじめに
Dataiku社から、データ分析の学習のためのコンテンツとして提供されている、Dataiku Academyで学習しています。
今回は、Visualizing Time Series Dataを参考にして、Dataiku DSSを使って時系列データのグラフを作成してみます。
データ
架空のDataiku Tシャツショップの注文ログのデータ(orderes_by_date.zip)のグラフを作成します。
データはここから取得できます。
このデータは、次の4つの項目からなります。
項目名 | 内容 |
---|---|
order_date | 日付 |
tshirt_category | 6種類のTシャツを区別する識別子 |
tshirt_quantity | Tシャツの1日の販売数 |
amount_spent | Tシャツの1日の売上金額 |
形式はLong Formatという形式になります。
プロジェクトの新規作成
画面右上の[+NEW PROJECT]ボタンをクリックして、[Blank project]をクリックします。そのあと、[New project]画面のNameに「Time Series Basics」を入力して、[CREATE]ボタンをクリックします。新規にプロジェクトが作成されます。
データのアップロード
Dataiku Tシャツショップの注文ログのデータ(orderes_by_date.zip)を次の方法でアップロードします。
- [+ IMPORT YOUR FIRST DATASET]ボタンをクリックします。
- [New dataset]画面で[Upload your files]をクリックします。
- [New Uploaded Files dataset]画面で、orderes_by_date.zipをアップロードします。画面下側に[PREVIEW>]ボタンが表示されるので、そのボタンをクリックします。
- [Schema]タブをクリックした後、[INFER TYPES FROM DATA]ボタンをクリックします。項目の型が適切なものに設定されます。
- 画面右上の[CREATE]ボタンをクリックします。orders_by_dateデータセットが作成されます。
各Tシャツの1日の売上金額の折れ線グラフの作成
次の方法で、各Tシャツの1日の売上金額の折れ線グラフを作成します。
- [Charts]をクリックします。
- [Lines]を選択します。
- Y軸に「amount_spent」、X軸に「order_date」、グループ化に使用するカテゴリとして、「tshirt_category」を指定します。Tシャツ毎の1日の売上金額のグラフが表示されます。グラフの下側に、表示する時間の範囲を指定できるタイムラインが表示されます。
タイムラインを使って表示する時間の範囲を指定できます。
各Tシャツの年間の四半期ごとの売上金額のグラフの作成
上記で作成したグラフから年間の四半期ごとの合計金額を表示するグラフを作成します。
- [+Chart]ボタンをクリックして新しいグラフを作成します。グラフの形式は[Histogram]を選択します。
- Y軸に「amount_spent」、X軸に「order_date」、グループ化に使用するカテゴリとして、「tshirt_category」を指定します。また、「order_date」をクリックして、[Date ranges]で「Quarter of year」を選択します。年間の四半期ごとの各Tシャツの売上金額が表示できます。
ここで「amount_spent」をクリックして、[Aggregate]の指定によって様々な値で表示することができます。
項目名 | 内容 |
---|---|
AVG | 年間の四半期毎の平均値が表示されます |
SUM | 年間の四半期毎の合計が表示されます |
MAX | 年間の四半期毎の最大値が表示されます |
MIN | 年間の四半期毎の最小値が表示されます |
最後に
Dataiku DSSを使って、時系列データをグラフ表示してみました。DataikuのChart機能を用いることで手軽にグラフを作成することができました。
次回は、時系列データを加工する「Preparing Time Series Data」を試してみようと思います。
よかったら、みなさんもDataikuを利用してみてください。