今回はSalesforceのAIとTableauを使って完全ノーコードで最適化問題に挑戦してみます!
最適化とは?
最適化の目的は結果を最大化するための最適な条件を探し出すことです。
例えば原価80円のパンを100円で1000個販売している場合、(100-80)x1,000=20,000円の利益が出ます。
条件を変えてパンを90円で販売する場合は2,000個売れれば同じ利益になります。120円で販売する場合は500個売れれば同じ利益が出ます。
ただ、90円で販売した場合1500個しか売れないかもしれないですし、120円にした場合でも800個は売れるかもしれません。
いくらで販売した時に利益が最大化するのか?に関しては、設定価格に対して販売個数の仮説を立て、ベストな価格を決定することが出来ます。
ただ、外部環境は一定ではありません。天気や周りのイベント状況、実施しているキャンペーン等で訪問顧客数も変化しますので、様々な条件を元に判断したいというのが課題として発生します。
最適化を実現化するための手法としては大きく分けて目的関数の解を求める方法と逆問題を解析する方法の2つに分けられます。
この目的関数、仮説を元に自分で作成する事もできますが、今回はAIを使って過去データから導き出します。
目的関数の最大化/最小化による最適化
1つ目は目的関数という目標値を算出するための関数の最大化です。
例えば y=ax+b のような式があり、yが最大/最小化するようなa,x,bの組み合わせを見つける方法です。
この手法では最適な解の組み合わせが見つかります。
ただし、a, x , b の組み合わせに複雑な相互条件が存在すると、条件を変更して複数回実行する必要が出てきますし、条件の取り得る範囲を把握するのは困難です。
逆問題解析による最適化
2つ目の手法はa,x,bの値をランダムに発生させ、その組み合わせを関数に入力し、yを取得します。
これらを無数に繰り返し、パラメータの組み合わせの中から、実現可能な組み合わせを見つける方法で、逆問題と呼ばれたりします。
この逆問題はある程度の制限下でどの条件が最適かを見つけ出すのに向いています。
例えばいろんな気候条件での来店客数をランダムに発生させておいて、ある天気や気温での来店客数を最大化する条件を見つけたり、
製品の配合や製造条件を変更したときの物性や品質の変化δを見るような時にも使えます。
今回はこの逆問題を使用して
SalesforceのAIであるEinstein Discoveryで作成した予測を元に、Tableauで自分の希望する条件で絞り込んで分析したい思います。
全体の流れ
ざっくり下記の流れです。
1.Einstein Discoveryを使って機械学習モデルを作成
2.Tableau Prepでランダムデータを作成
3.1で作成したモデルで 2のデータに予測値を追加
4.Tableauで条件を変更してWhat if分析
Einstein Discoveryを使って機械学習モデルを作成
SalesforceのAIであるDiscoveryを使用すると特別な知識無しでも、クリックベースでAI分析が可能です。
今回は以前使用したタイタニックの乗客データを元に作成したモデルを使用します。
予測分析を行う場合は、予測精度(モデルの予測がどれだけ信用できるか?)には注意してください。信頼性の低い予測は参考になりませんので、精度が低い場合は、まずモデルをブラッシュアップしてください。
今回はAUCで0.86という非常に高い値が出ているので、このモデルで予測したいと思います。
Tableau Prepでランダムデータを作成
今回は最適なデータの組み合わせを見つけるのが目的なので、データは均一に発生させます。
パラメータとしては「性別」「乗船地」「同乗した兄弟配偶者数」「同乗した親と子の数」「乗客クラス」「年齢」です。これらを組み合わせたデータを作成します。Excelのシートにそれぞれのデータを記述します。このときBの列’Key’がすべて’A’になっていることに注目してください。
Tableau Prep Builderでデータ作成
これらExcelシートをTableau Prepを使用してKeyの列をキーにしてJoinします。するとすべての列の掛け合わせたデータを発生させることができます。
「性別」 2 x 「乗船地」 3 x 「同乗した兄弟配偶者数」 7 x 「同乗した親と子の数」 7 x 「乗客クラス」 3 x 「年齢」 84 = 74088通りの乗客パターンが発生出来ました。
今回は発生頻度は気にしていませんが、年齢や男女比など、分布を作りたい場合はNormInv関数を使用すると分布を作れます。こうすると顧客ポートフォリオの変化による収益の影響なども見れますよね。あまり条件が複雑になって来る場合は勿論ExcelよりRやPythonの方が向いていますね。。。
Einstein Discoveryで予測
Einstein Discoveryの予測をそのままTableau Online上に保存することも出来ますが、
今回はTableauサーバーを経由しないでデータをダウンロードする方式でご紹介します。
CSVファイルをDiscovery上にアップロード
レシピを使ってDiscoveryオペレータを使用して予測を付与します。
CSVデータと予測に使ったデータセットの項目紐付け
この時Discoveryの予測オペレーターのオプションで「上位の予測因子」「上位の改善点」を指定すると、
予測だけでなく予測値に影響のある要素と改善に効果がある要素も付与してくれます。
実行するとデータセットが出来ます。
データのダウンロード
データセットを開いてテーブル形式で表示します。その後「共有」から「Excel形式でダウンロード」を選択します。
ここで気をつけたいのが、規定だと100行のみExport対象になっています。行数を増やしたい場合は「クエリモード」からLimitの行数を増加して「クエリを実行」する必要があります。
共有からExcelファイルの取得
クエリ実行が準備出来たらいよいよデータをエクスポートしていきます。「共有」から「Excel形式でダウンロード」を選択します。
Tableauでの可視化分析
これで予測を含むランダムデータが準備出来ました。
これを元にTableau Desktopで可視化してみます。
一番生存率の高いグループ
平均生存率が42%くらいなのに対して、一番生存率の高いグループは94%です。
そのグループの属性ですが、「女性」で乗客クラスが「ミドルクラス」「アッパークラス」の人が多いようです。
生存率の悪いグループ
逆に条件の悪いグループ内で最大限の結果を出すにはどのような条件が必要でしょうか?
「男性」で「アッパークラス」以外の条件にすると生存確率は16%と低くなります。
この条件下で高い生存率を出している人がいれば、その原因と全体的な改善方法を見つけましょう。
その中でも68%以上の生存確率を出しているグループがあるのでこちらを選択すると
乗船地、シェルブールでミドルクラスの人が多いですね。グラフには含まれてないですが、年齢が15才以下というのも影響度大きいです。
あと、右下にある改善方法ですが、クラスをアッパークラスに変更したり、同乗した親と子の数を1にする(これは0から1にするのか、2以上から1にするのか?もう少し見てみないとわからないですね)などが選択肢として表示されます。
まとめ
いかがでしょうか?Einstein DiscoveryとTableauを使用してノンコーティングでの最適化分析のやり方をご紹介しました。
このような条件変更時のWhat if分析、またAIとBIを組み合わせた分析手法というのはこれからもっと多くのニーズがありそうな分野だと思います。
是非、皆さんお手持ちの課題でチャレンジしてみてください!