Databricksノートブックやダッシュボードでは様々な可視化を簡単に行うことができます。ただ、普段使いしているのは棒グラフ、折れ線グラフ、円グラフ、散布図と言ったところです。
可視化の種類はそれ以外にもあるのですが、正直私自身あまり使ったことがなかったので、ここでトライしてみます。
こちらのあまり使っていないビジュアライゼーションを試してみます。
ヒートマップチャート
select * from samples.tpch.orders
結果が表示されたら + ボタンを押して可視化を選択します。
なるほど。X軸、Y軸、値を指定すればそれに応じてヒートマップが作成されます。
バブルチャート
select * from samples.tpch.lineitem LIMIT 100
ファネル ビジュアライゼーション
ファネルはマーケティングなどで使われる、「第1ステップから第2ステップに何割、第2ステップから第3ステップに何割進むのか」というのを可視化するための手法です(多分)。
注文ステータスで金額をグルーピングします。
SELECT o_orderstatus, sum(o_totalprice) as Revenue
FROM samples.tpch.orders
GROUP BY 1
サンキー(Sankey)
ある一連のデータセットから別のデータセットへの関連性を可視化します。以下の例では、乗車地点から降車地点への関連性を乗車賃金で可視化しています。
SELECT pickup_zip as stage1, dropoff_zip as stage2, sum(fare_amount) as value
FROM samples.nyctaxi.trips
GROUP BY 1, 2
ORDER BY 3 DESC
LIMIT 10
サンバーストシーケンス
サンバーストシーケンスでは階層構造にあるデータを円グラフで可視化します。
SELECT pickup_zip as stage1, dropoff_zip as stage2, sum(fare_amount) as value
FROM samples.nyctaxi.trips
GROUP BY 1, 2
ORDER BY 3 DESC
LIMIT 10
ワードクラウド
テキストデータの可視化では数年前までは結構使われてました。
select * from samples.tpch.orders
英語の場合、最初から単語がスペースで区切られているので、日本語の場合は形態素解析して単語を分析する必要があります。