はじめに
23年2月からTableau案件にアサインされることになったので、理解を深めるためにまとめます。
第1回 ディメンジョンとメジャー
第2回 連載と不連続
第3回 集計と非集計 ←今回
筆者の技術力
業界歴半年で、つい2週間前にTableau Desktopをインストール。BIツールはTableauが初めてです。
参考
非集計とは
「非集計」は、各行の中で完結している計算のこと。
サンプルスーパーストアを例にとって、売上にどのくらい利益が占めているかを表した「利益率」を計算する列を追加してみました。
データソース▼を見てみると、確かに計算した結果が追加できていますね。
先ほど定義した計算式に従い、「利益率」フィールドが生成されています。
これらはデータソース1行1行(レコード)の中で、それぞれの行の中で完結する計算が行われており、このことを「行レベル計算」と言います。
また、複数行のデータ集計ではないので、「非集計」計算とも呼ばれます。
集計とは
「集計」は、粒度(データの切り口のこと)によって、データソースを切り分けて、その範囲内でデータを集計すること。
上記の非集計では、利益率をレコード単位で完結させる計算をしていました。
この計算だと、例えば家電カテゴリ毎の利益率を見たいとき、「家電カテゴリに対し、1行ずつ利益率を算出する」ことになります。
正しいカテゴリ毎の利益率は、「カテゴリ毎の総売上に対し、そのうち何%利益になったか」なので、次のような計算式になります。
これを「集約計算」と呼び、ディメンジョンの変化に応じて、その範囲内における利益率を算出してくれるというものです。
例えば、「地域」のディメンジョンを列に配置したとき、利益率はそれぞれの「地域毎」で計算式に従って求められます。
さらに、「カテゴリ」のディメンジョンを追加すれば、利益率はそれぞれの「地域毎×カテゴリ毎」で求められるということです。
まとめ
ここでは、集計と非集計についてまとめました。
Tableauは、ディメンジョンを配置した範囲内(粒度)を判断し、瞬時にデータを集計し視覚化してくれることが分かりました。
次回は、結合・リレーション・データブレンドについて紹介できればと思います。