本記事の目的
ノンコーディングでも色々できる(雑!)Power Platformがかなり流行っています。
私も社内SE(いわゆる情シス)という立場でPower BIをかじっていますが、社外の勉強会に参加すると業務部門の非エンジニアがこういったツールをしっかり使いこなしていて尊敬します。
一方で、非エンジニアの方がつまづきやすいポイントもいくつかあるように思えます。Power BIの場合も最低限知っておくべき知識はいくつかあり、その最たるものがデータモデルだと思います。
###データモデル
Power BIには3つのメニューがあり、それぞれ別の機能を持っています。Power BIを使うにはこれら3つ全てのメニューを使いこなす必要があります。
- レポート:レポート画面のデザイン、設計
- データ:データ取得元の設定、扱うデータの前処理
- モデル:異なるデータソース間の結合
この「モデル」というのがデータモデルにあたります。
触りはじめの頃はついついビジュアル的で華やかな「レポート」に目が行きがちですが、それ以前の「データ」や「モデル」の作り方がめちゃくちゃ重要なことにすぐに気づくと思います。
ということで、とても重要なわりに非エンジニアの方にとっては馴染みのない概念かと思いましたので、データモデルについて非エンジニアの読者を想定してまとめてみました。
(個人ブログ書いてましたがPV伸びないので、ほぼ転記でQiita初投稿です)
対象読者
非エンジニア向けなので、最低限の基本事項に絞りました。
データベース?データモデル?何それ?くらいの人をイメージしています。
以下の質問の意味が分かるようであれば、本記事はそっと閉じて下さい。貴重なお時間ありがとうございました。
- 「そのテーブルの主キー(Primary Key)は?」
- 「そのテーブルの外部キー(Foreign Key)は?」
- 「そのテーブルは正規化されているか?」
- 「それらのテーブルの多重度(カーディナリティ)は?」
本記事では**【会社に所属する社員リストをPower BIで可視化する**】というめちゃくちゃシンプルなシナリオで順を追って説明します。
上の質問が理解できるようになることがゴールです。
主キーとは
主キーとは:テーブル内のデータを特定するもの
さて、可視化したい社員リストを見てみましょう。会社に所属する社員それぞれに対して、所属先の部門が記載されたリストになっています。次のようなEXCELのテーブルをイメージして下さい。
3列しかデータがなく面白みに欠けますが、主キーについて説明するには十分です。
主キーとは、その対象を一意に特定できる属性をいいます。上の社員テーブルの中では、社員を一意に特定できる「社員番号」が主キーとなります。会社の中で同じ社員番号を持った社員はいないはずだからです。
それでは、氏名は主キーになるでしょうか?一般的には、氏名は主キーにはなりません。なぜなら同姓同名の人が会社内に複数存在する可能性があるからです。主キーにはもう一つ、特徴があります。それは、必ず空ではないことです。先ほどの例で言えば、社員番号を持たない従業員は、会社内に存在しないはずです。
主キーの注意点:扱うデータの範囲を意識する
ここまで社員テーブルについて考えてきましたが、暗黙的に置いていた前提がありました。それは「1つの会社内の社員」にデータの範囲を限定していたということです。
これが複数の会社の社員からなるリストの場合、社員番号を主キーにはできません。次のように、異なる二つの会社で重複した従業員番号が存在する可能性があるからです。
ではこの場合、どうすべきでしょうか。一つのアイデアは会社の名前を列に加えることです。そうすると、「会社名と社員番号の組み合わせ」で社員を一意に特定できます。
つまり、会社名と社員番号のセットが主キーとなります。こういった複数の項目からなる主キーを「複合主キー」と呼びます。
このように、主キーは扱うデータの範囲によって変わる場合があります。
特に自身がデータや対象業務に熟知していない場合には注意が必要です。これを誤ると、データ集計時に実態と異なる数字になってしまう危険性があるためです。
外部キーとは
外部キーとは:他のテーブルから情報を検索するもの
先ほどの社員リストをあらためてみてみると、所属部門が「コード」になっており、このままだと何のことかよく分かりませんでした。
このままPower BIで部門コードを使ったレポートを作成しても、レポートの読み手が混乱してしまいます。
そこでIT部門に問い合わせをして、以下の部門リストをもらいました。このリストがあれば、先ほどまで謎だった所属部門コードの正体が分かりそうですね。
つまり社員リストの「所属部門コード」を使って、部門リストの「部門コード」を検索しに行くことによって、部門名を取得できます。このように、他のテーブルから情報を検索するものを外部キーと呼びます。
このように外部キー(と主キー)を使って、複数のテーブルを参照関係でつなぐことを、結合(JOIN)する、またはリレーションをはる、と言ったりします。
2つのテーブルの間に「1-▶︎-*」という結合(意味は後述)ができました。これで2つのテーブルの間の架け橋ができたので、2つのテーブルが擬似的に1つになり、部門名をレポートに表示することができるようになります。
Power BIによるテーブルの自動結合
Power BIの場合、テーブル間に以下の両方の条件に合致する列があれば自動的に結合されます。(オプション設定で自動結合させないことも可能)
- 列の名前が同一
- データの型が同一
ただし自動で設定された結合については、必ず人の目で確認するべきです。今回の例でも「部門コード」と「所属部門コード」では名前が異なるので自動では結合されませんし、逆に意図しない結合ができてしまう場合もあります。
正規化とは
正規化とは:冗長なデータを排除する作業のこと
外部キーの説明を読み、「はじめから社員テーブルに部門名を持たせておいたら?」と思われた方がいらっしゃるかもしれません。その疑問はとても重要です。
つまり、こういうことです。
(社員テーブルに所属部門名称の列を追加)
このようなデータの持ち方ももちろん可能ですが、データが冗長になっていることから普通は推奨されません。ポイントは、所属部門コード(例:AAA)が決まれば、所属部門の名称(例:営業部)は自動的に決定されることです。
この冗長性を解消するためにテーブルを分割する作業が「正規化」です。
正規化をすると、左のように1つの大きなテーブルを持たせる代わりに、右のように小さいテーブルを複数持たせる形になります。今回は部門テーブルが2列だけのテーブルですが、これが100列のテーブルになった場合を想像してもらえば、正規化のメリットを感じてもらえると思います。
業務システムの裏側では正規化が行われている
重要なことは、みなさんが扱う業務システムの裏側のデータベースでは通常こういった正規化がされているこということです。
逆に言えば、システムのデータをPower BIで可視化するためには、多くのテーブルの主キーと外部キーを使いテーブルを結合する作業が必要になる可能性が高いです。
多重度とは
多重度とは:テーブル間の結合の種類のこと
外部キーの説明で言及した通り、複数のテーブルをつなぐことを、結合(JOIN)する、またはリレーションをはる、と言います。
実はこの結合には、種類があります。部門と社員の結合の例を見てみましょう。
部門と社員は「1つの部門に複数の社員が存在する」という関係になります。この時、部門テーブルと社員テーブルの関係は**「1:多」**の関係である、といいます。Power BI画面上では「1-▶︎-*」という結合部分が、この「1:多」を表現しています。
では社員が複数の部門に所属できる、いわゆる兼務がありの場合を考えてみましょう。この場合は、部門テーブルと社員テーブルの関係は**「多:多」**となります。
このように2つのテーブルが結合される時の種類を多重度(カーディナリティ)と呼び、以下の種類があります。
- 1:1
- 1:多
- 多:1
- 多:多
ここでは詳細は省きますが、多対多の関係はデータモデルの世界では禁止されています。Power BIでも出来る限り利用しないことが推奨されています。
Power BIによる多重度の自動判断
Power BIでテーブルの結合を行うと、データを元に自動的に多重度を判断してくれますが、必ず人の目で正しいかを確認しましょう。
多重度が想定と異なる、例えば「1:多」になるはずが「多:多」になっている、といったことをきっかけに利用データの不整合に気付けることも多くあります。
多重度はPower BIでテーブル間の結合部分をクリックし、プロパティを呼び出すことで確認できます。左下のカーディナリティというのが多重度のことです。
まとめ
冒頭の質問の意味を理解することはできたでしょうか。
厳密な定義より分かりやすさを優先した(つもり)ので、ご了承ください。
- 「そのテーブルの主キー(Primary Key)は?」
- 「そのテーブルの外部キー(Foreign Key)は?」
- 「そのテーブルは正規化されているか?」
- 「それらのテーブルの多重度(カーディナリティ)は?」
Power BIには便利な機能があるため、細かい部分は意識せずとも、ある程度ツール側でうまくやってくれます。ただ、きちんと理解をしておかないと、複雑なデータに直面したときに行き詰まります。
更に怖いのはデータに対する理解不足により誤った結果を出してしまうことです。BIツールは可視化に優れているために、誤解を生む結果を表示してしまうとその影響も大きくなる点にも注意が必要です。