#はじめに
Advent Calendar 2016、11日目の投稿。
Azure DocumentDBのデータをPowerBI Desktopで読み込んで分析する機会があったので簡単なTips的なことでも。
まずは、PowerBI、DocumentDBとはなんぞや、という点をさらっと説明していきます。
(細かく知りたい人はググってください)
##PowerBIとは
PowerBIとはMicrosoftが提供するいろんなデータを簡単に視覚化できますよーというツールでWeb版とDesktop版がそれぞれあります。
今回ご紹介するのはDesktop版(以下、単にPowerBI)の方で、Web版と比べて、いろいろと細かい編集をやりたい場合に便利なものです。
一番の大きな魅力はやはりこのDesktop版は無料で使える、という点ですかね。
※ツールは下記PowerBIのサイトからダウンロード可能です。
ダウンロードボタンを押すと入力画面が出てきますが、無視してもOKです。
PowerBI Desktopへのリンク
##Azure DocumentDB
Azure DocumentDB(以下、単にDocumentDB)とは、MicrosoftがAzureクラウドサービスの一つとして提供しているNoSQL型のストレージで、JSON形式のデータをためて置くことができるものです。
#さて
PowerBIは様々なデータソースを取り込むことができ、DocumentDBもまだベータ版ですが、取り込むことが可能です。
ここでは、DocumentDBのアカウントからデータを取り込むところまでを説明してきます。
まずは、PowerBIを開いて「データを取得」ボタンを押す。
画面が出てくるので、左ペインから「Azure」を選択すると右ペインの一覧の中から「Microsoft Azure DocumentDB(ベータ)」がありますので、それを選択して「接続」ボタンを押す。
そうするとDocumentDBのアカウント情報を入力する画面が出てきますので、ここではとりあえずアカウントのURLを入力し、「OK」を押します。
アカウントキーの入力が求められますので、キーを入力し「接続」ボタンを押す。
そうするとDocumentDBに接続されコレクション(RDBでいうところのテーブルみたいなもの)の一覧が出てきますので、今回のために作成した「demo」コレクションを選択します。
このまま「読み込み」を押してデータを読み込むこともできますが、まずは細かい編集をしたいので「編集」ボタンを押します。
編集画面が表示され、データが読み込まれました。
次はこの読み込まれたデータをどう加工して行くかについてみていきましょう。
#JSONデータを展開する
今回のデモのために、とりあえず下記データを1件DocumentDBに登録しておきました。
データは適当なので細かいことは気にしないでください。
{ "id": "person001", "person": { "name": "Hiroshi Nohara", "age": 43, "job": { "company": "MaruBatsu", "title": "Salesman" } } }
さて、このデータをPowerBIで扱いやすくするにはどうすればよいのでしょうか。
さきほどの画像を見るとカラムが一つしかなく、プロパティが一つも見えません。
編集画面のデータが表示されているところを注意して見てみましょう。
「Document」というカラムの右上に開いてくれと言わんばかりのボタンが見えますでしょうか。
PowerBIは基本的に表形式のデータを扱うのが得意なのでJSONデータのような階層化されたデータはこの展開?ボタンを押して展開していかなければならないのです。
では、展開ボタンを押してプロパティを表示していきましょう。
今回はとりあえず、「_」(アンスコ)始まりのプロパティは無視しますので、必要なプロパティだけをチェックボックスで選択し「OK」を押します。
これで、「id」と「person」が見えましたね。
ですが、まだ全部見えてないので、どんどん展開していきましょう。
展開、展開、展開・・・(メンド)。
さて、これで全てのプロパティが表示されました。
編集画面の左上にある「閉じて適用」ボタンを押しましょう。
PowerBIの本画面に戻ってきました。
下の画像を見ると一番右側の「フィールド」ペインに展開したプロパティの一覧が表示されています。
これらプロパティを選択していって表を作ったり、いろんなグラフを作成していけますが、このデモではとりあえず表を使いましょう。
フィールド一覧にあるプロパティを「視覚化」ペインの「値」欄にドラッグ&ドロップで追加してくと、下図のように表データが出てきました。
データ1件だけでは寂しいので追加で3件データを登録していきましょう。
2件目:
{ "id": "person002", "person": { "name": "Misae Nohara", "age": 39, "job": { "company": "Home", "title": "SengyouSyufu" } } }
3件目:
{ "id": "person003", "person": { "name": "Shinnosuke Nohara", "age": 5, "job": { "company": "Action Kindergarden", "title": "Enji" } } }
4件目:
{ "id": "person004", "person": { "name": "Himawari Nohara", "age": 0, "job": { "company": "Home", "title": "Baby" } } }
新たに登録したデータを読み込むためには、「最新の情報に更新」ボタンを押します。
表示されましたね。
#JSONに新しいプロパティを登録したら
では次は新しいプロパティを追加したJSONデータを1件登録し、そいつもPowerBIに表示してみましょう。
{ "id": "person005", "person": { "name": "Shiro Nohara", "age": 5, "job": { "company": "Home", "title": "Guard Dog", "dept": "Dog House" /*★新しく追加したプロパティ★*/ } } }
こいつは、、、personなのか・・・?ということは置いておき、jobの中に新たに「dept」というプロパティを追加しました。
ではこのデータをPowerBIを更新して読み込んで見ましょう。
あれ?追加した「dept」プロパティがフィールド一覧に表示されない・・・。
ちょっと編集画面を開いて詳しく見てみましょう。
編集画面を開くとリボンの「クエリ」というとこに「詳細エディタ」ボタンがあるので、それを押して詳細クエリエディタを表示します。
PowerBIでは、GUIだけでなく、このようなエディタでクエリ文を書いてデータを加工することも可能です。
で、そのクエリを見てみると、JSONデータを展開していくステップが書いてあるのが見えますでしょうか。
ご丁寧に展開されたプロパティが事細かに記述されています。。。
この状態だと新しいプロパティを追加しても、前回展開したプロパティしか表示されないんですね。
ちなみに、これらの加工ステップは編集画面の右側にある「適用したステップ」でもGUIで確認することができます。
では、新しく追加されたプロパティを表示するために再加工していきましょう。
詳細エディタを閉じて、編集画面でやっていきます。
右側にある「適用したステップ」でjobを展開する1つ前のステップに戻りましょう。
するとデータがjob展開前の状態に戻ります。
この状態でもう一度jobを展開してみましょう。
列選択画面を見ると、下のほうに「注意」マークが出て「リストが完全でない可能性があり(ます)」と表示されています。
すぐ右にある「読み込む」リンクを押してみましょう。
新たに追加した「dept」プロパティが表示されましたね。
選択して「OK」ボタンを押しましょう。
ちゃんと表示されましたね。
しかし、ここで終わりではありません。
先ほど、1つ前のステップに戻りましたが、その後のステップはどうなるのでしょうか。
jobが見つかりませんでした、とエラーになってしまいます。
ステップの左側に見える「×」ボタンを押して削除しましょう。
これで大丈夫ですね。
では左上の「閉じて適用」を押してPowerBI画面に戻りましょう。
「フィールド」ペインに「dept」が表示されましたね。
表に追加してみましょう。
ちゃんと表示されましたね。
#おわりに
いかがでしたでしょうか。JSONメンデー、という感じですかね。
正直、PowerBIでJSONデータを扱うのはいろいろ手間がかかって面倒なのですが、簡単にグラフィカルなレポートを作りたいなら大変便利なツールかと思います。
まだまだ発展途上なツールですし、今回のDocumentDBプラグインはまだベータ版ということもあるので、今後に期待していきたいですね。
JSONデータでなくとも、表形式のデータも扱えるので、みなさまも是非活用してみてはいかがでしょうか。
ではでは。