#Tableau Prep とは
Tableau 社 が提供している データ準備ツール です。元々 Project Maestro というコードネームで開発が進められていましたが、2018/4/24 に Tableau Prep として製品版がリリースされました。Tableau Desktop を使っているユーザであれば誰でも使えるようになってます。
データ加工をフロー形式で定義することができるため、可読性、生産性の高いツールになってます。詳細は製品ページを参照ください。
製品サイト
#LOD 表現 とは
Tableau ではビューの表示に使われるディメンションの粒度とは異なる粒度で集計テーブルを作成できる機能があります。 LOD 表現と呼ばれ、従来の BI ツールでは中間テーブルを作成しないと表現ができなかった計算を実現できます。
LOD 表現トップ 15
ただし、データ量が多くなった場合や複雑な計算をする場合に、レスポンスタイムが落ちてしまうことがある、というのが LOD 表現を使用する際の注意点となります。
#Tableau Prep で疑似的に LOD 計算をしてみる
ようやく本題に入ります。動的に LOD 表現をするとレスポンスタイムが落ちる場合があるので、 Tableau Prep で前処理をしてしまいましょう。
Tableau Prep では Tableau Desktop の関数がほぼほぼ使えるのですが、現在提供されているバージョンでは一部対応していません。その中でも LOD 関数と呼ばれる、Fixed、Exclude、Include 関数は未対応です。ただ、そもそも LOD 表現というのはビューと異なる粒度の集計テーブルを一時的に作るものであって、 Tableau Prep においてはフローの中でそれらのテーブルを定義してしまえばよいのです。
How to mimic the magic of LOD expressions in Tableau Prep
2019/11 追記: Tableau Prep Builder 2019.4.1 にて Fixed 関数 に対応しました。
---以下は古い情報となりますが、役立つ部分もあるかと思いますので、そのまま残しておきます---
##顧客ごとの直近売上金額に応じて顧客属性の判定を行う
LOD 表現に慣れている方であれば、Fixed 関数を使って顧客ごとの売上金額を下記で表現できることは想像できるかと思います。
{Fixed [顧客ID] : SUM([売上金額])}
この式を組み合わせて直近の売上金額が高い人を判定して、ロイヤルカスタマーとしてフラグを立てる、といった感じです。
この流れをおなじみのサンプルスーパーストアを使って Tableau Prep で表現してみましょう。
###今四半期の顧客ごと売上を集計
・Tableau Prep を起動し、サンプルスーパストア.xls に接続します。注文表をドラッグアンドドロップで定義します。
・Tableau Prep ではフローの定義を進めていく中で快適に動作するよう、データをサンプリングしています。今回の Excel ファイルのようにデータ量がそれほど多くない場合は Data Sample から、 Use all data を明示的に指定すると、フローの中ですべてのデータを扱うことができます。
・Add Step を選択し、データの加工をはじめていきます。
・オーダー日 列で右クリックし、 Filter -> Relative Dates を選択します。これにより相対日付での絞り込みができます。
・Quarters -> This quarter を選択し、現四半期におけるデータに絞り込みます。
・Add Aggregate を選択し、データの集計を行います。
・Grouped Fields に オーダー日、顧客 ID を選択、Aggregated Fields に 売上 を選択します。
・オーダー日 を四半期として扱いたいので、GROUP をクリックして、Group by level -> Quarter Start を選択します。
・売上 列を 今四半期売上 に列名変更。
・オーダー日 を右クリック -> Remove Field で削除します。
・ここまでのタスクを日本語で説明を書きましょう。可読性が上がり、他の人がこのフローを見た際にどんな処理が組まれているかぱっと見でわかるようになります。
###前四半期の顧客ごと売上を集計
・最初に定義した 注文 表に戻って、 Add Branch をクリックします。
・これまでの流れと同じように、今度は前四半期の売上を顧客ごとに集計します。
###顧客 ID の重複排除
・最初に定義した 注文 表に戻り、 Add Aggregate をクリックします。
・ここでは顧客 ID のみを Grouped Fields にドラッグアンドドロップします。Aggregate (集計) の機能なのですが、このようにディメンションだけ置くことで重複排除にも使えます。
###顧客テーブルと顧客ごと売上テーブルを結合 (JOIN)
・今四半期の顧客ごと売上 を 重複排除された顧客 ID 表の右側にドラッグアンドドロップします。
・Join Type は LEFT OUTER JOIN (左外部結合) とします。
・同様に前四半期の顧客ごと売上 を先ほどの JOIN 結果テーブルの右側にドラッグアンドドロップし、LEFT OUTER JOIN (左外部結合) します。
###顧客属性の判定
・JOIN 結果から、Add Step をクリックします。
・不要な列 (顧客 ID-1、顧客 ID-2) を削除します。
・Create Calculated Field をクリックして計算列を追加します。
・一見複雑そうに見えますが、中身は単純です。前四半期と今四半期の売上を比較して、顧客属性を判定します。
###アウトプットの作成
・判定結果テーブルを最初に定義した注文テーブルの右側にドラッグアンドドロップして、LEFT OUTER JOIN (左外部結合) します。
Tableau Prep からは Tableau Server/Online にデータソースをパブリッシュしたり、ファイル (.hyper, .tde, .csv) を吐き出すことができます。
##まとめ
Tableau Prep で LOD 的な計算をしてみました。サンプルスーパーストアはデータ量が少ないので、パフォーマンス、という観点では Tableau Prep で事前に集計・判定するメリットがあまり感じられないかもしれませんが、可読性という観点ではフローをたどることでどういったロジックで顧客属性を判定しているのか、というのは非常にわかりやすく実装ができているかと思います。
Tableau Prep はまだ初期リリースということもあり、今後の機能拡張に期待したいところです。とりいそぎ日本語 UI とスケジューリング機能は早く欲しいですね。今回はいきなり LOD ということで少し難しい内容かもしれません。UI が日本語化されたら初級者向けの使い方記事を書こうと思います。
##リソース
Tableau Prepで出来る事のまとめ
Tableau Prep の使い方 - コマンドラインによる自動化
Tableau Prep Online Help
はじめてのTableau Prep