More than 5 years have passed since last update.

Google Cloud AI Platform、What-if Toolを使ってみた②

Posted at 2019-11-27

1. はじめに

デフォルトではDatapoint editorタブが表示されています。各データをクリックすると個別の特徴が見えます。複数データの特徴を見ることで各データがモデルにどのように影響を与えているかが確認できます。

1つデータを選んで、特徴量の値を変更して、Run Inferenceをクリックしてみます。
agency_code_Department of Housing and Urban Development (HUD)を試しに0から１に変更してみましょう。

モデルの承認予測値が変化します。これで特徴量がどのくらい予測モデルに影響を与えているかがわかります。

左下のUIからそれぞれの予測スコアを見ることができます。

データポイントを選択して、Show nearest counterfactual datapointスライダーを右にスライドさせましょう。

最も似ている特徴量を持ち、反対の予測値を示すデータポイントが表示されます。２つの差分を理解できます。

それぞれの特徴量が予測モデルにどのように影響するか見るために、Partial dependence plotsをチェックし、Global partial dependence plotsを選択します。

HUDからのローンは否認される確率がわずかに高いことがわかります。

application_income_thousandsは数値特徴量です。200kドルまでは収入が多いほど承認されやすいことがわかります。200kドルより高い場合は、モデルの予測に影響を与えていないことがわかります。

Performance & Fairnessタブを開きます。混同行列、PR曲線とROC曲線を含むモデルの性能統計結果をみられます。

mortgage_statusを選択し、混同行列を見ます。

混同行列はモデルの正解・不正解の予測を示します。

ローンのapprovedを予測する前に、閾値のスライダーを使って、分類スコアの変動を確認できます。この場合、閾値が0.55の時accuracyが最大になります。

loan_purpose_Home_purchaseを選択します。

"0" は住宅用のローン、"1"はそれ以外のローンであることを示します。false positiveとfalse negativeの値に差があることを確認できます。

画面を展開すると混同行列が表示されます。住宅ローンの場合は70%が承認されていると予測し、それ以外のローンでは４６％が承認されていると予測しています。

Demographic parityを選択すると、2つの閾値が調整され、2つのスライスが同じくらいの割合でapprovedと予測されるようになります。

What-if ToolのFeatureタブでは特徴量それぞれの分布が見られます。

偏りをみましょう。