PowerBI

【PowerBIメモ】Excelユーザーが泣いて喜ぶPowerBIでのETLのすごいとこ

3年前のぼくは、Excelだったり、Rだったりを使っていたわけですが、
データクリーニングが億劫でしかたがなかったのです。

とくに昨今のオープンデータは、まだまだ発展途上で、
横持ちデータだったり、正規化されていなかったり・・・

そんな中PowerBIに出会って、データクリーニングのしやすさに驚嘆したのを今でも鮮明に覚えています。

ということで、単なる主観的なトピックスになりますが、
VBAを使いこなせないぼくのようなExcelユーザーが泣いて喜ぶPowerBIのETL機能紹介まとめます!

1 そもそもETLとは?

ETL(Extract/Transform/Load)は以下の定義のようです。

  • Extract - 外部の情報源からデータを抽出
  • Transform - 抽出したデータをビジネスでの必要に応じて変換・加工
  • Load - 最終的ターゲット(すなわちデータウェアハウス)に変換・加工済みのデータをロード

引用:Wikipedia

ここでは、厳密な定義にこだわらず、データを取得、加工、利用するプロセスをETLと呼んでしまいます。

Excelを使っていると、データの取得や加工、利用の場面でこんなことに悩んだ経験が一度でもあるはず。

  • データの中に一部文字や空白が含まれている
  • 横に長い集計表(ピボット)の加工、利用がうまくいかない
  • データを最新版に反映させるのが面倒
  • WEB画面上のデータを使いたいけど、コピペしてもうまくいかない

この問題、PowerBIなら簡単に解決します。
※というか、機能的にはほとんどPowerQuery(取得と変換)の話なので、別にExcelでもできちゃいますがw

Excelライトユーザーが泣いて喜ぶ機能
いや、私が泣いて喜んだ機能をいろいろ紹介します。

2 置換、削除で泣いて喜ぶ

不明文字の置き換え、空欄、数値以外のデータ・・・
多量かつ複雑なデータを使うと、各カラムには様々な"ゴミ"がデータに含まれているケースがあります。

これは、データベースに格納されているデータではなく、人の作業で作られたデータに多いですね。
Excelだと、置き換えや削除はSUBSTITUTE関数が定番でしょうか。

PowerBIは空白が含まれるカラムを行単位で削除できたり、
エラーの値や任意の値を置き換えるコマンドがあらかじめ用意されています。

どんなにデータが膨大でもボタン一つってのはやっぱり便利ですねー。

3 ピボット解除で泣いて喜ぶ

横持ちデータを縦持ちデータに。
ExcelやSQLでこれをやるのはかなり骨がいる作業なのではないかと。
PowerBIならクリック一つ。感動ですね。

こんな感じの横持ちデータ。これは人が見やすいデータの典型
図2.png

ピボット解除を選択すると・・・
図3.png

これが縦持ちデータ。これは機械判読しやすいデータ
図4.png

4 データソースからの取得で泣いて喜ぶ

Localにあるファイルから、クラウド上のデータ、WEB上のデータ、オンプレミスデータベースのデータ。
色々な場所に入っているデータを取得するのもクリック一つ。
オープンデータをよく使っていたため、
HTML上のtableタグ情報を読み取ってきてくれるのは嬉しかったなぁ。

試しに、大田区のAED設置場所一覧(HTML上のtableタグ)を取得して可視化してみましょう。

大田区のAED設置場所一覧(12/21取得)

データを取得⇒Web

URLをコピペ

ちゃんと読み込まれてます

esriマップで可視化

5 更新の容易性で泣いて喜ぶ

データを取得しても、データソースのファイルに変更や追加があれば、
更新によって最新値に反映してくれます。
所定のフォルダにExcelを保存→所定フォーマットでみんなが保存→PowerBIで即反映
のプロセスが可能。

とあるフォルダに社員別の売上見込データがあるとする

PowerBIのデータ取得でフォルダを指定

ひとまず可視化

フォルダにデータの追加があったら・・・

データの更新を押すだけで自動反映

おわりに

VBA含め、いろいろなプログラミング言語を使いこなせなくても、
ここまで簡単にできてしまうんですね~。
ちなみに、PowerQueryを使いこなせればもっと複雑で機能的なことができるようになりそうです。
いつか習得したいっすね。