機械学習よくわからないおじさんが果敢に試した。(データを用意して果敢にボタンポチポチしただけ)
引き続き Preview な状態ではあるけれども、以前トライしたときとだいぶ様相が変わっていたのです。リトライするにあたり、説明変数?とか欠損値どうする?とかわからないから、あらかじめ情報を仕入れたりしながら。
始める前に前もって読んだなど。https://t.co/lr7aLuaxkx
— Takeshi Kagata (@PowerBIxyz) 2019年7月10日
- Creating Machine Learning models in Power BI | Microsoft Power BI Blog | Microsoft Power BI
- Azure Machine Learning サービスの新しい Automated Machine Learning 機能 – Cloud and Server Product Japan Blog
試した機能とは
Microsoft Power BI: AI powered analytics - Microsoft Power BI Community
Power BI の機能として利用できる AI にはいくつかあって、引用から。
Insights
データセットから見いだせる結果を提示(Quick Insight)
言葉で質問することでビジュアライズ(Q&A)
Key Influencers visual など、ビジュアル自体がAIによる結果を表現(AI Visualization)
Enrichment
Power BI の機能として統合された、Cognitive Services の一部
Cognitive Services | Microsoft Azure
Premium キャパシティのみで利用可で料金込み
Automated ML
Power BI の機能として統合された、Azure Machine Learning サービス
Machine Learning サービス | Microsoft Azure
Premium キャパシティのみで利用可で料金込み
特徴は、Generate ML models in clicks ぽちっとなで Turnkey model deployments すぐ使うことができる状態に。これを試してみたって話
Data Science Extensibility / Azure Extensibility
Power BI ではなく Azure にリソースが用意できている場合、Power BI で統合したリソースとして利用することが可能。位置づけ的にはプロ仕様って感覚でよいかと。
いざ、まいる
チュートリアルは存在しているのだけど、キャプチャが古かったり内容も微妙なのでいちど読んだらそっ閉じ。そのうちいい感じになることでしょう。
Tutorial: Build a Machine Learning model in Power BI (Preview) - Power BI | Microsoft Docs
手順など
Premium キャパシティに配置された Power BI データフローが必要
お試しに用意したサンプルデータは、いわゆる Titanic。Kaggle 提供のサンプルで train と test のCSVがあったのでそのまま拝借。Power BI データフローのエンティティとして用意するけれども、CSV は接続可能な場所であればどこでも構わない。エンティティとして保存するには 各カラムのデータ型定義を済ませる。Power BI データフローを保存して少なくとも1回は更新をする必要がある。そうしないとエンティティは存在するもののデータがないということになるから。
作業の開始
更新が完了したら、Power BI データフローを編集。[機械学習モデル] - [作業の開始]
データの選択
学習用データの[エンティティ名]を選択し、[履歴の結果フィールド] で "Survived" を選択。学習用データでは Survived 列に 0 か 1 が入力されていることは確認済み。Boolean に変換しないでやってみた。変換した場合、[履歴の結果フィールド]デフォルトで選択などされることでしょう。
モデルの選択
別の学習モデルをつかうことはないので [バイナリの予測] そのままで。Boolean 変換されていないので、1を [予測する値]として選択。次回試す時には、true / false に変換してやってみよう。
入力をカスタマイズします
説明変数をどう選ぶの?って思ってたんですよね。まぁおススメがされたのでそのままでもよいのかなと。
さじ加減はわからないけれども、Key Influencers visual でもおおむね同じ内容なのでよいのではないかなと思った。ひとまず、学習に向くであろう変数を選ばれているということで。
名前 + トレーニング
完了したっぽいので、データフローを編集として結果をみる。
[アクション]で リトレインとか編集ができるけれども、今回は "パフォーマンスレポート"を表示
パフォーマンスレポート
モデルが用意されたあと、パフォーマンスレポートを参照できるようになり、ここから[モデルの適用]。
で、どのようなレポートがされているかは実際に試してみてもらう必要があるし、指標もそこそこあるのかなと。どのようなことを指しているのかいずれやらなければならいけど。まぁプレビューなので表現されている内容は変わっていくのでしょう。
で、性能だけを見ていても仕方がないので、このモデルから得られる結果をどうビジネスに活かせるようにするか。しきい値を調整することで判定される結果に必要な意味を見出せるかについては、こういう手段が提示されているのではないかと。
結果に基づいて業務を遂行するとき、かかるコストと得られる利益を勘案してしきい値を決定していく感じ。
思ったこと🙄
最終的には再トレーニングやレポートのデータソースにつかうエンティティの更新含めて考えなければならないけど、まずは使えるようになっているよというところまで。
いかにも Microsoft らしい機能の展開かなと。得られる結果がどのようなものであるかを知ってビジネス課題が解決できればよいのでしょう。"機能" なのですから機械学習のことすべてを知らなくてもよいのでは?っていう割り切り。
エクスポートもできるようになるんですって。
Microsoft Power BI: AI powered analytics - Microsoft Power BI Community