こんにちは。
私は現在「Microsoft Certified: Power BI Data Analyst Associate」の勉強中なのですが、
その中で、今までなんとなく使っていた「列のピボット」についてちゃんと理解していなかったな~と感じたので、この機会に調べて整理してみようと思います。
かなり基本的な内容で、「列のピボット」を直感的に理解できる方には不要な記事なので、読み飛ばしてください。
「列のピボット」とは
縦持ちデータを横持データにすることです。
横持データは一見データ分析に使いにくいですが、
「売上」「予算」等のデータが縦持ちになっていた場合などは、
横持データにした方が分析しやすいです。
Microsoft公式から引用しますが、「列のピボット」を図解するとこうなります。
「列のピボット」のやり方
やり方はとても簡単です。
まず、各行の値を列にしたい列を選択して、「列のピボット」をクリック。
するとピボットの設定画面が出るので、値にしたい列と集計方法を選択して「OK」をクリック
これで完成です。
何が「値」に来るのか
ピボット後の各列の値がどこから来ているのか分かり辛かったため、図解します。
先ほどの公式の図を用いると、こうです。
なんてことはない、「値」に指定した列の、ピボットする列の各行に対応する値が出てきているだけです。
集計とは何か
私はここで大きな勘違いをしていたのですが、
集計は値に指定した列を除いて重複がないと何で集計しても一緒です。
主キーは、{カテゴリ、国、年}となりこの3つの組み合わせで重複はありません。
これを「国」でピボットするとこのようになり
この際の値を作るのに何かが集計されることはありません。
そのため、集計で「集計しない」を選んでも全く同じです。
ところが、集計されるのは以下のような場合です。
このように、同じカテゴリ、同じ国、同じ年なのに売上が違う場合があります。
この場合、例えば家具、アメリカ2019年だと、売上の「321」「547」が合計されて、「868」として表示されます。
ここで集計を「最小値」にすると、「321」と「547」の小さい方なので、「321」
となります。
これが「列のピボット」における集計です。
おわりに
私はTableau Prepでの加工に慣れているので、あまり理解しないまま適当にピボット処理していました。
Prepにも「集計」欄があったので、あまり考えずに列を突っ込んでいたのですが、
よくよく考えると集計と書いてあっても集計されないことの方が多いということを今回調べて分かりました。
あやふやに理解しているとダメですね。
試験合格へ向けて、基礎をしっかり理解していこうと思います。
最後まで読んでくださりありがとうございました。
Rieko