Edited at

Power BI Service で利用できる AutoML を試してみた

機械学習よくわからないおじさんが果敢に試した。(データを用意して果敢にボタンポチポチしただけ)

引き続き Preview な状態ではあるけれども、以前トライしたときとだいぶ様相が変わっていたのです。リトライするにあたり、説明変数?とか欠損値どうする?とかわからないから、あらかじめ情報を仕入れたりしながら。


試した機能とは





Microsoft Power BI: AI powered analytics - Microsoft Power BI Community

Power BI の機能として利用できる AI にはいくつかあって、引用から。

Insights

データセットから見いだせる結果を提示(Quick Insight)

言葉で質問することでビジュアライズ(Q&A)

Key Influencers visual など、ビジュアル自体がAIによる結果を表現(AI Visualization)

Enrichment

Power BI の機能として統合された、Cognitive Services の一部

Cognitive Services | Microsoft Azure

Premium キャパシティのみで利用可で料金込み

Automated ML

Power BI の機能として統合された、Azure Machine Learning サービス

Machine Learning サービス | Microsoft Azure

Premium キャパシティのみで利用可で料金込み

特徴は、Generate ML models in clicks ぽちっとなで Turnkey model deployments すぐ使うことができる状態に。これを試してみたって話

Data Science Extensibility / Azure Extensibility

Power BI ではなく Azure にリソースが用意できている場合、Power BI で統合したリソースとして利用することが可能。位置づけ的にはプロ仕様って感覚でよいかと。


いざ、まいる

チュートリアルは存在しているのだけど、キャプチャが古かったり内容も微妙なのでいちど読んだらそっ閉じ。そのうちいい感じになることでしょう。

Tutorial: Build a Machine Learning model in Power BI (Preview) - Power BI | Microsoft Docs


手順など


Premium キャパシティに配置された Power BI データフローが必要

お試しに用意したサンプルデータは、いわゆる Titanic。Kaggle 提供のサンプルで train と test のCSVがあったのでそのまま拝借。Power BI データフローのエンティティとして用意するけれども、CSV は接続可能な場所であればどこでも構わない。エンティティとして保存するには 各カラムのデータ型定義を済ませる。Power BI データフローを保存して少なくとも1回は更新をする必要がある。そうしないとエンティティは存在するもののデータがないということになるから。


作業の開始

更新が完了したら、Power BI データフローを編集。[機械学習モデル] - [作業の開始]


データの選択

学習用データの[エンティティ名]を選択し、[履歴の結果フィールド] で "Survived" を選択。学習用データでは Survived 列に 0 か 1 が入力されていることは確認済み。Boolean に変換しないでやってみた。変換した場合、[履歴の結果フィールド]デフォルトで選択などされることでしょう。


モデルの選択

別の学習モデルをつかうことはないので [バイナリの予測] そのままで。Boolean 変換されていないので、1を [予測する値]として選択。次回試す時には、true / false に変換してやってみよう。


入力をカスタマイズします

説明変数をどう選ぶの?って思ってたんですよね。まぁおススメがされたのでそのままでもよいのかなと。

さじ加減はわからないけれども、Key Influencers visual でもおおむね同じ内容なのでよいのではないかなと思った。ひとまず、学習に向くであろう変数を選ばれているということで。


名前 + トレーニング

名前とかはほどほどで。

学習が始まる

しばらく待った。10 min くらいだそうだ。

完了したっぽいので、データフローを編集として結果をみる。

[アクション]で リトレインとか編集ができるけれども、今回は "パフォーマンスレポート"を表示


パフォーマンスレポート

モデルが用意されたあと、パフォーマンスレポートを参照できるようになり、ここから[モデルの適用]。

で、どのようなレポートがされているかは実際に試してみてもらう必要があるし、指標もそこそこあるのかなと。どのようなことを指しているのかいずれやらなければならいけど。まぁプレビューなので表現されている内容は変わっていくのでしょう。



欠損値も埋めているようだし、アンサンブル学習してますって。

で、性能だけを見ていても仕方がないので、このモデルから得られる結果をどうビジネスに活かせるようにするか。しきい値を調整することで判定される結果に必要な意味を見出せるかについては、こういう手段が提示されているのではないかと。

結果に基づいて業務を遂行するとき、かかるコストと得られる利益を勘案してしきい値を決定していく感じ。




思ったこと🙄

最終的には再トレーニングやレポートのデータソースにつかうエンティティの更新含めて考えなければならないけど、まずは使えるようになっているよというところまで。

いかにも Microsoft らしい機能の展開かなと。得られる結果がどのようなものであるかを知ってビジネス課題が解決できればよいのでしょう。"機能" なのですから機械学習のことすべてを知らなくてもよいのでは?っていう割り切り。

エクスポートもできるようになるんですって。





Microsoft Power BI: AI powered analytics - Microsoft Power BI Community


その他