前置き
業務でMetabaseを利用する機会があったので自習と業務での知見を備忘としてまとめた。
Metabaseとは
オープンソースのBIツール
DBと接続してダッシュボードを作成し、データを可視化できるツールである。
執筆時点ではオンプレ版で無料のOSS~有償のEnterpriseプランの3プランと、Cloud版の有償3プランがある。
特徴
BIツールとしては後発ゆえか、モダンなUIで直感的に操作が可能。
Metabaseではデータの抽出・可視化を「質問」と呼び、その方法は
- GUIでの抽出・可視化
- SQLでの抽出・可視化
SQLが使えない・不慣れな担当者でも簡単にデータの可視化が可能である。
SQLに慣れ親しんだアナリスト・データサイエンティスト・データエンジニアはSQLでの可視化も可能。
他のBIとしてTableauを利用していた自分にとってはネイティブなSQLでデータを集計できるのがありがたかった。
使い方
今回個人環境ではDockerイメージを利用して実行環境を作成した。
オンプレ版はDockerイメージでの利用と、Jarファイルでの利用が可能。
今回は用意されているサンプルのデータセットで試した。
特徴の項でも触れたが、「質問」でのGUIでのデータ抽出とSQLクエリでの抽出がある。
1.GUIでの抽出
- データ(DBでいうテーブル)を選択(結合も可)
- 集計したい列と集計方法の選択
- 集約のキー列の選択
- その他ソートなどのオプションの選択
描画タイプ:線、X軸:日付の列・カテゴリー、Y軸:売上の集計値を選択
すると、簡単にカテゴリー別の売り上げ推移のグラフが作成できた。
※実は裏でSQLが作成されている
SELECT parsedatetime(formatdatetime("PUBLIC"."ORDERS"."CREATED_AT", 'yyyyMM'), 'yyyyMM') AS "CREATED_AT", "Products"."CATEGORY" AS "Products__CATEGORY", sum("PUBLIC"."ORDERS"."TOTAL") AS "sum", sum("PUBLIC"."ORDERS"."QUANTITY") AS "sum_2"
FROM "PUBLIC"."ORDERS"
LEFT JOIN "PUBLIC"."PRODUCTS" "Products" ON "PUBLIC"."ORDERS"."PRODUCT_ID" = "Products"."ID"
GROUP BY parsedatetime(formatdatetime("PUBLIC"."ORDERS"."CREATED_AT", 'yyyyMM'), 'yyyyMM'), "Products"."CATEGORY"
ORDER BY parsedatetime(formatdatetime("PUBLIC"."ORDERS"."CREATED_AT", 'yyyyMM'), 'yyyyMM') ASC, "Products"."CATEGORY" ASC
2.SQLでの抽出
SQLを使い慣れている人にとっては自分でクエリを作成してデータを抽出したほうがわかりやすいだろう。
GUIと同様にカテゴリ別売り上げ推移を出してみる。
左の「データについて詳しく見る」より、テーブルの列を参照できる。
GUIでの抽出時の表示(やクエリ)をみるとX軸の集計軸である日付が月次にまるまっていた。
GUIでの抽出ではそのあたりを可視化段階で調整できるようだ。
SQLでの抽出ではクエリで集計単位を決定する。
変数の利用
SQLの経験豊富なアナリスト、データサイエンティストはGUIでの集計はあまりしないのではないだろうか。
だが上記のようにGUIでしか集計単位をグラフ上で変えられないのでは不便だ。
ダッシュボードとするなら集計単位などを変えられると便利だが、そのたびに類似のSQLをいちいち書くのも手間である。
そんな不満を解消できるのが変数の利用である。
{{変数名}}
のように記述すると入力が可能な変数をクエリに組み込める。
select
date_trunc({{date_part}},ORDERS.CREATED_AT) as term,PRODUCTS.CATEGORY,sum(ORDERS.TOTAL)
from
ORDERS
join PRODUCTS on ORDERS.PRODUCT_ID = PRODUCTS.ID
group by
term,PRODUCTS.CATEGORY
order by term
上記クエリで抽出すると
このように集計単位を簡単に変更できる。
他にも期間を絞る条件を変数で作ることもできる。
select
date_trunc({{date_part}},ORDERS.CREATED_AT) as term,PRODUCTS.CATEGORY,sum(ORDERS.TOTAL)
from
ORDERS
join PRODUCTS on ORDERS.PRODUCT_ID = PRODUCTS.ID
where
1=1
[[ and ORDERS.CREATED_AT >= {{start_day}}]]
group by
term,PRODUCTS.CATEGORY
order by term
※[[条件式]]
とすることで必須でない条件(未入力でも実行される)を追加できる。
参考