3年前のぼくは、Excelだったり、Rだったりを使っていたわけですが、
データクリーニングが億劫でしかたがなかったのです。
とくに昨今のオープンデータは、まだまだ発展途上で、
横持ちデータだったり、正規化されていなかったり・・・
そんな中PowerBIに出会って、データクリーニングのしやすさに驚嘆したのを今でも鮮明に覚えています。
ということで、単なる主観的なトピックスになりますが、
VBAを使いこなせないぼくのようなExcelユーザーが泣いて喜ぶPowerBIのETL機能紹介まとめます!
#1 そもそもETLとは?
ETL(Extract/Transform/Load)は以下の定義のようです。
- Extract - 外部の情報源からデータを抽出
- Transform - 抽出したデータをビジネスでの必要に応じて変換・加工
- Load - 最終的ターゲット(すなわちデータウェアハウス)に変換・加工済みのデータをロード
引用:Wikipedia
ここでは、厳密な定義にこだわらず、データを取得、加工、利用するプロセスをETLと呼んでしまいます。
Excelを使っていると、データの取得や加工、利用の場面でこんなことに悩んだ経験が一度でもあるはず。
- データの中に一部文字や空白が含まれている
- 横に長い集計表(ピボット)の加工、利用がうまくいかない
- データを最新版に反映させるのが面倒
- WEB画面上のデータを使いたいけど、コピペしてもうまくいかない
この問題、PowerBIなら簡単に解決します。
※というか、機能的にはほとんどPowerQuery(取得と変換)の話なので、別にExcelでもできちゃいますがw
Excelライトユーザーが泣いて喜ぶ機能
いや、私が泣いて喜んだ機能をいろいろ紹介します。
#2 置換、削除で泣いて喜ぶ
不明文字の置き換え、空欄、数値以外のデータ・・・
多量かつ複雑なデータを使うと、各カラムには様々な"ゴミ"がデータに含まれているケースがあります。
これは、データベースに格納されているデータではなく、人の作業で作られたデータに多いですね。
Excelだと、置き換えや削除はSUBSTITUTE関数が定番でしょうか。
PowerBIは空白が含まれるカラムを行単位で削除できたり、
エラーの値や任意の値を置き換えるコマンドがあらかじめ用意されています。
どんなにデータが膨大でもボタン一つってのはやっぱり便利ですねー。
#3 ピボット解除で泣いて喜ぶ
横持ちデータを縦持ちデータに。
ExcelやSQLでこれをやるのはかなり骨がいる作業なのではないかと。
PowerBIならクリック一つ。感動ですね。
#4 データソースからの取得で泣いて喜ぶ
Localにあるファイルから、クラウド上のデータ、WEB上のデータ、オンプレミスデータベースのデータ。
色々な場所に入っているデータを取得するのもクリック一つ。
オープンデータをよく使っていたため、
HTML上のtableタグ情報を読み取ってきてくれるのは嬉しかったなぁ。
試しに、大田区のAED設置場所一覧(HTML上のtableタグ)を取得して可視化してみましょう。
#5 更新の容易性で泣いて喜ぶ
データを取得しても、データソースのファイルに変更や追加があれば、
更新によって最新値に反映してくれます。
所定のフォルダにExcelを保存→所定フォーマットでみんなが保存→PowerBIで即反映
のプロセスが可能。
#おわりに
VBA含め、いろいろなプログラミング言語を使いこなせなくても、
ここまで簡単にできてしまうんですね~。
ちなみに、PowerQueryを使いこなせればもっと複雑で機能的なことができるようになりそうです。
いつか習得したいっすね。