PowerBIには、Data Analysis Expressions(DAX)という数式の部品として利用できる関数や演算子ライブラリが組み込まれています。
公式リファレンスでは以下のような記載があります。
DAX は、計算を実行して 1 つ以上の値を返すために数式 (式) 内で使用できる関数、演算子、および定数のコレクションです。つまり、DAX を使用すると、モデル内に既にあるデータから新しい情報を作成できます。
要するに、PowerBI上に取り込んだデータを基に、何らかの計算による結果を出すために利用できる言語だということです。
このDAXですが、使い始める前にある程度概念や使いどころを理解していないと、
使いはじめ早々挫折する可能性があります。
もちろん、私も挫折しましたw
まだ完全に理解できているわけではないですが、初歩的なことをお伝えして、なんとか挫折者を少なくしたいと思います。
#1 DAXはどこで使う?
まず理解すべきは、PowerBIにおけるデータ取り込みからグラフ化までのフローと、
その背景に使われている技術です。
以下にイメージ図を書きました。
DAXが利用されるのは、データセットに対する計算列の追加と***(集計)メジャーの作成***のプロセスです。
例えば外部データからの取り込み、データの加工・編集は、PowerQueryという言語が使われています。
DAXとは全く違う言語が使われていること理解できると、DAXの勉強が捗ります。
※PowerQueryで計算列の追加などができないわけではありません。あくまでDAXの主要な役割を整理するための概念として参考にしてください。
#2 PowerQueryの記載場所
ちょっと蛇足ですが、PowerQueryが適用されている場所を確認します。
PowerQueryはPowerBI上のクエリエディタで利用されている言語です。
データの取り込みを行うと、このような画面に遷移します。
クエリエディタでデータ形式の変換や、エラー削除等のデータ加工を行いますが、
GUI上での操作過程が「適用したステップ」として記録されていきます。
この操作は、PowerQueryのプログラムとして登録されていきます。
ホームタブの「詳細エディタ」を選択してみましょう。
let
ソース = Csv.Document(Web.Contents("http://www.soumu.go.jp/johotsusintokei/field/csv/gt010101.csv"),[Delimiter=",", Columns=3, Encoding=932, QuoteStyle=QuoteStyle.None]),
変更された型 = Table.TransformColumnTypes(ソース,{{"Column1", type text}, {"Column2", type text}, {"Column3", type text}}),
削除された最初の行 = Table.Skip(変更された型,5),
昇格されたヘッダー数 = Table.PromoteHeaders(削除された最初の行, [PromoteAllScalars=true]),
変更された型1 = Table.TransformColumnTypes(昇格されたヘッダー数,{{"西暦年", type text}, {"利用者数", type text}, {"人口普及率", type text}}),
削除された最初の行1 = Table.Skip(変更された型1,6)
in
削除された最初の行1
上記は、とあるデータの加工ステップですが、自動的に作成されています。
このコードがPowerQueryです。
PowerQueryの説明もしたいですが、ここでは割愛。
というか、まだまだ勉強不足。。。
ひとまず、これでPowerQueryがどこで使われているか分かりました。
#3 DAXの実際
ではDAXはどこで使われているの?
テーブル画面の上部、数式バーに記載されているコードがDAX式です。
Excel関数をイメージしていただければいいかもしれません。
データテーブルに対して、どのような処理を行うのかが書かれています。
#4 計算列とメジャーの違い
DAXは「計算列」の作成と、「メジャー」の作成で利用できます。
なにが違うのでしょうか??
公式リファレンスでは以下のような解説があります。
計算列は、メジャーと同様 DAX 数式に基づきますが、使い方が異なります。 メジャーが最も使用されるのは、テーブルの行にある他のフィールドに基づいて結果を計算するための視覚化の [値] 領域です。また、視覚化の [軸] や [凡例]、[グループ] 領域でも使用されます。 一方、計算列が使用されるのは、テーブル内の行や、[軸] 領域、[凡例] 領域、または [グループ] 領域内の行の列の結果が必要な場合です。
引用元:チュートリアル: Power BI Desktop で計算列を作成する
かみ砕くとこんな感じ。
レコード単位でデータが必要なケースは計算列をDAXで追加します。
以前記事にしたカレンダーテーブルの作成は典型的な計算列追加の例です。
【PowerBIメモ】時系列データとうまく付き合うための整理・可視化・分析・予測Tips
例えば、とある身長・体重リストからBMIを計算する場合。
一人ひとりのレコード単位でBMIを計算し、テーブルに付け加えないといけませんよね。
この場合は以下のように計算列を追加します。
BMI = [体重] / ( [身長]/100 )^2
Excelを使い慣れている日本人にとって、計算列は容易にイメージがつきます。
問題はメジャーちゃん。
#5 分かりにくいメジャーのお話
メジャーは“固定のデータ”ではなく、“集計する条件”というイメージを持つと分かりやすいかもしれません。
先ほどのBMIの例、平均を計算したい場合はどのようにすべきでしょうか?
列の追加は意味がないことはお分かりですね。
以下のようなメジャーを作りましょう。
BMI平均 = AVERAGE('テーブル1'[BMI])
この「BMI平均」というメジャー。
フィルタ条件によって色々な値を出力することは容易に分かりそうですね。
PowerBI上で「BMI平均」をグラフ化してみます。
フィルタ(軸)条件に「クラス(Aクラス or Bクラス)」を使いましょう。
しっかりクラスごとに平均点が計算されています。
可視化の条件設定に応じて、メジャーは色々な形にデータが変わるのです。
#6 実は裏で活躍しているメジャーちゃん
ところで、先ほどの追加した計算列「BMI」、
これをそのまま値フィールドにもってくるとどうなるでしょうか。
同じ値になりました。
じつは計算列を値フィールドに持ってきて、「平均」を選択すると同じグラフが作れます。
これ、実は裏でメジャーが自動生成されているだけと理解してください。
計算列の合計や平均、最小値などの単純な統計指標は、クリック操作だけでできるようになっているのです。
(当初はこれのイメージが全くつかず、混乱していました・・・)
ちなみに、高度なメジャーを自動作成する機能もあります。
詳細は以下公式リファレンスで。
クイック メジャーを使用して一般的で強力な計算を簡単に実行する (プレビュー)
#7 おわりに
計算列とメジャー、目的の違いや利用方法のイメージはつかめたでしょうか。
ここをクリアにできると、DAX関数の勉強など、次のステップに進めると思います。
いずれそのあたりまでQiitaで書けるといいですが・・・。