Tableauで操作を始める前に、そもそもデータソースをいじらなきゃなんない。
そんなときのために、今回はデータソースに関してメモ。
Makeover Mondayの2020 Week1のデータをサンプルに。
https://data.world/makeovermonday/2020w1-what-is-americas-most-popular-sport
##データのフィールド名
とりあえずTableauにデータをドラッグしたらこんな感じ。
フィールド名が正しく読み込まれないのはなぜ。ということで、1行目がフィールド名だよーって事を設定してあげよう。
データソースを右クリックして、「フィールド名は1行目に含まれている」にチェック
結果、下記図の通りきれいな形に。
##ピボット
フィールド名はきれいになったけど、年毎のデータがそれぞれメジャーになっている(横持ちデータ)ので、Tableauさんでは扱いにくい。
ということでメジャーを一つにまとめて縦持ちのデータに。
対象のメジャーを全部選んで右クリック⇒「ピボット」
結果、下記図の通りデータが縦に。
フィールド名はデフォルトになるので、適した名前に修正。
##データの結合(Join)
さて、一旦ピボットする前に戻ってデータを見ると、年が飛び飛びになってる。
ということで、間を埋めよう。
※今回はメモ用に別のファイルで空いた年のダミーデータを作成。
足りない年のデータをドラッグするとこんな感じ。
左上には新しいデータソースが追加されました。
また、右上にはベン図でデータが紐づいたように見えるけど、まだできてない。(右下見てもらうとデータがフィールド名しか表示されてない)
ここで、結合のボックスで紐づけるためのキーを設定。今回は「Sport」でいいでしょう。
正しく設定ができると、下記のように。
※右下はさっきと同じでフィールド名がうまく読み込まれていないので、修正。
右下にデータが表示されるように。
さて、じゃあさっきと同じようにピボットで縦持ちデータにかえて作業を始めよう!と言いたいところなのに、別ファイルのデータソースを結合すると、いずれか1つのデータソースしかピボットできないことが発覚・・・。
ということで、別ファイルではなく同じデータソースの中に別シートで同様のダミーデータを作成。
左側にシートが追加されるので、あとはさっきと同じように結合して、ピボットを試すと・・・
完成!
##データのブレンド
さて、異なるデータソースをくっつける別の方法も。
今回はSportを「球技」と「その他」でカテゴリ分けするために、別のデータソースでSportにカテゴリを振ったデータを準備。
さて、とりあえずまずはTableauでSportを表示。
ここでSportの右側に球技かその他かのカテゴリを表示させたいので、カテゴリのデータをビューにドラッグすると左上がこんな感じに。
データが接続されたことを確認したら、データ⇒リレーションシップの編集をクリック
編集画面で、プライマリデータソースにベースとなるデータを、セカンダリデータソースに追加したいデータを選択し、追加ボタンから紐づけたいキーを設定。
紐づけされたセカンダリデータベースのキーに赤いチェーンのマークがついたらOK。
それでは、カテゴリのディメンジョンをビューにドラッグ。
できた!。
この状態から、前の記事で書いたプライマリグループの作成につながる感じ。
#結合とブレンドの使い分け
結合:データをくっつけて集計する。
ブレンド:それぞれ集計後にデータをくっつける。
基本的には結合が使えるなら結合で対応した方がもろもろ処理しやすくお勧め。
ただし、データの粒度が異なる場合(日別データと月別データみたいな)は、結合ではなくデータのブレンドを使う。
##おわり
データをくっつける方法にはもう一つ「ユニオン」というものが存在。(元データ的に触れられず。)
なんかの機会にまたメモ残せれば・・・。