この記事の目的
Tableauで接続するデータを選択した後の以下の画面について、機能を確認していきます。
※Tableauを開いた際、最初に出るのは以下の接続データ選択画面ですが、今回はここについては触れません。
使用するテーブルの中身を覗いてみる
今回参照するスーパーストアのExcelには注文、返品、関係者の3テーブル存在しています。
中身のテーブルにどんな項目があるのか、どんなテーブル構成なのか確認したいためテーブルの中身を覗いてみます。
確認したい対象テーブルにカーソルを合わせるとキャプチャのような、テーブルをマーク化したものが出てきます。
使用するテーブルを選択
もしくは
・対象テーブルにカーソルを当ててダブルクリック
すると以下の様に分析に使うテーブルが全体に表示されます。
この工程まで来たら、「Tableauに使うメインの対象テーブルが確定したよ!」という意味合いになります。
結合方法
メインテーブルを上記で選択しましたが、そのテーブルに結合を施す場合には以下のように複数の結合方法があります。
UNION
データを縦に繋げる事ができます。
メインテーブルの▼を押下し、ユニオンの編集を選択します。
利用シーンとしては複数のログデータを一つにまとめて利用したい、というケースなどが考えられます。
※縦に繋ぐデータはカラム数やカラム内容などのテーブル構成が同一である必要があります。
手動で追加
繋ぎたいデータをどんどん入れていきます。
(キャプチャでは同一の「注文」テーブルを入れてますが、本来は異なるテーブルを結合する事が利用シーンとしては考えられるのでそこの違和感は無視してください)
自動で追加
デフォルトでは固定(手動)が選択されているので、これを右の ワイルドカード(自動)に変更します。
ワイルドカード(自動)を選択することで同一フォルダに新らしいファイルが追加されるとワークブックを開いたタイミングで自動取り込みされます。
Excelファイルの場合は、シートもしくはワークブックでの設定ができます。
リレーションシップ
リレーションシップは複数のテーブルを使いやすいように、Tableauが集計してからテーブル同士を結合してくれます。
結合方法(左結合、外部結合、内部結合etc...)を選ぶ必要もないので、データ初心者でも使いやすいのが特徴でTableau社もリレーションシップの利用を推奨してます。
以下のように結合したいテーブルをドラッグすることで可能です。
キャプチャのようにオレンジ色の線が出てきます。
項目名が繋ぎ先・繋ぎ元の項目名が同一であればTableauの方で自動で繋いでくれます。
紐づける項目が複数ある場合には、フィールドをさらに追加から追加を行ってください。
ここに関してですがデフォルトの状態でも既に安全に分析ができる状態なので、特にいじらなくても問題なさそうです。
Tableau社でも前提として以下のような情報を公開してます。
■適切な選択肢がわからない場合
Tableauで表示される既定の推奨設定を使用してください。
既定値は安全に使用でき、分析中に正しい集計と結合が自動的に生成されます。
基数や参照整合性がわからない場合は、これらの設定を変更する必要はありません。
■データの形状がわかっている場合
必要に応じてこれらの設定を変更し、2 つの表のレコード間の一意性と一致を表すことができます。
公式リンクはこちらです。
ちゃんとデータについて理解している人は変更してみてねって感じですね。
メリットとしては、変更する事でパフォーマンスがあがる可能性があります。
カーディナリティオプション
判断基準 | Tableau UI選択 | 説明 |
---|---|---|
フィールドの値が一意でない場合、もしくは一意かどうかわからない場合 | 「多」 を選択 | すると結合前に関連データが集計されます。 |
フィールド値が一意の場合 | 「1」 を選択 | すると集計前に関連データが結合されます。 ただし、フィールド値が一意でない場合に 「1」 を選択してしまうと集計値が重複する可能性があるので注意です。 |
参照整合性オプション
判断基準 | Tableau UI選択 | 説明 |
---|---|---|
フィールドの一部の値が他のテーブルの値と一致しない場合や、一致しているかが不明な場合 | 「一部のレコードが一致する」を選択 | 一致しない値を含むすべての値をとってくることができます。(=外部結合) |
フィールドの値が他のテーブルの値と確実に一致する場合 | 「すべてのレコードが一致する」を選択 | この表に一致しない値がある場合には、一致しない値が削除されたりします。(=内部結合) この設定を選択すると生成される結合は少なく済むので、クエリのパフォーマンスは上がるようです。 |
結合
結合方法(左結合、外部結合、内部結合etc...)が明確な場合には、以下の方法で設定していきます。
メインテーブルの▼を押下し、開くを選択します。
赤枠部分をクリックすると結合方法の確認&変更が実施できます。
現在はオーダーIDが結合のキーとなっていて、内部結合が行われているのが確認できます。
メインの注文テーブルはレコードが10000件存在するのですが、内部結合が選択されているのでレコードが欠落しています。
今回は注文テーブルのレコードは全て取得したいので左結合に変更します。
するとレコード件数が10000件取得できていることが確認できました。
★リレーションシップと結合の違い★
リレーションシップはTableauのバージョン2020.2から追加された機能です。
調べるとよく書かれているのがTableauが良い感じに複数テーブルをくっつけてくれる機能というのがよくでてきます。
結論は正にその通りなのですが、それだけじゃ腑に落ちず私はもやもやとした事がありました。
二つの結合方法の異なりは複数テーブルを結合するタイミングが異なることです。
■リレーションシップ
1. それぞれのテーブルを集計(結合しやすい状態にしてくれる)
2. テーブルを結合する
※デフォルト設定の場合です。
先ほど説明したカーディナリティオプションをいじると結合タイミングは変わります。
■結合
1. テーブルを結合する
2. 結合の動作で実現できるのは1のみなので必要に応じて計算フィールドで集計を行う等
※結合するテーブル同士の粒度や集計状態が異なる場合、結合では値が膨らむなどの問題が出てきます。
そのような状況は以下のようなケースが考えられます。
例)
Aテーブルでは集計が全くされていない
Bテーブルではある程度集計された状態
→Aテーブルをメインとし、それにBテーブルを左結合するとBテーブルは重複レコードが発生
ここのさらに細かい解説はまた別の記事で更新したいと思います。
ここでポイントとしておさえたいのは
「Tableauが良い感じにくっつけてくれる」というのは、良い感じに集計してから結合する事ができるという事です。
接続方法(ライブor抽出)
抽出方法 | 特徴 | 注意点 |
---|---|---|
ライブ | テーブル情報をリアルタイムで取得可能 オフラインで作業は不可 |
Tableauを参照したりフィルターを動かしたりと、何かしらの処理が動く度にTableau→DBにデータを参照しにいく。その為、利用するDB環境によっては不向きな場合がある |
抽出 | 抽出接続した時点(即時実行orスケジュール実行)のデータをファイル化して、ファイルのデータを参照しにいく。 そのため、大量のデータを利用する場合に有向。 オフラインで作業も可能 |
Tableau Server上で重いデータソースを同時実行すると待ち時間が発生したりクエリ動作が遅くなったりする。同時実行を避けるスケジュール検討などが重要。 |
上記はあくまで目安であり、利用するDB環境やTableau Serverのキャパで選択は変わってきます。
ちなみに、デフォルトがライブ接続になっているので、気付かぬうちにライブ接続を選択していた、という事がよくあります。
Tableau Serverにパブリッシュする際には必ず確認しましょう。
データの絞り込み機能
抽出フィルター(行単位)
※抽出の場合のみ利用可
このフィルター設定を行うことで、利用しないデータを除外することが出来ます。
シートにデータを読み込ませる前にデータの抽出範囲を制限することができるのでパフォーマンスが向上します。
集計機能
フィールド非表示機能
このボタンを押下することで不要なフィールドを自動で除外してくれます。
ダッシュボードが完成した後に、最後パフォーマンス向上のために設定するでも良いです。
※データソース画面ではなくワークシート画面上での非表示にする作業は、「▼」押下し「使用していないフィールドをすべて非表示」
これでもOKです↓
※集計機能・フィールド非表示機能の注意点※
カスタムSQLだったらロジックを見る事で確実に抽出条件を確認する事が出来ますが、このオプション自体を知らない人は見逃してしまう可能性があります。
そのため、業務上利用する場合にはこの機能の利用をチームメンバーが把握しておく必要があります。(後々メンテする時のために)
データソースフィルター(行単位)
※抽出・ライブどちらでも利用可
個人的には、お試しでデータを食わせたい時に気軽に使えるフィルターとして使ってます。
ex )元データには10年分のデータが入っているけど、
それだと確認するには遅そうなのでお試しで直近3年分だけ取り込みたい時など