データ分析で、以下のようなピボットテーブルを書く機会は多い。
『Aが、Bのときに、Yになるのは?』表
『人気一位は、前走何mのときに、1着になる?』表
このくらいの表なら理解できるが、図で見た方が、さらに理解が深まる。
そんなときに、サンキーダイアグラム
解釈:
1.前走は、近い方が良いのかな?
2.因果推論の教科書からすると、以下の点も考慮が必要
調教師(行為者)が、似た距離しか使ってこない。
(選択バイアスを推測できてこそ、データ分析屋として一流)
3.収益を出すには、鉄板の前1000,1200より、前1800mの必勝ルートに目が行かないとダメ。
これこそ、サンキーダイアグラムを使うメリット。
ピボットテーブルとは違い、ちゃんと、結果の出せる順に並べてくれている。
(結果の出せない前1700は、最後になっている。)
棒や折れ線グラフの案もあるが、ストーリー性、仮説性がない。
import plotly.graph_objects as go
fig = go.Figure(data=[go.Sankey(
で、無料で使えるから凄い。
具体的な使い方は、データを絞って、生成AIに、サンキーダイアグラムを作るコードを聞けば、教えてくれる。
使用上のご注意:
1.無料なのに、結構複雑なデータも書けるが、ピボットテーブルで絞り込んだ方がいい。
サンキーダイアグラムを見て、複雑な時は、ピボットテーブルで絞り込むの繰り返しになる。
2.各変数の値が、同じ値だと、恒等写像(自分に戻ってくる)になるので、prefixで、値を変える。