はじめに
Orbitics株式会社データサイエンス部の上野です。
機械学習モデルの精度が向上するにつれて、その予測がどのように導き出されたのかを理解することの重要性が増しています。特にビジネスの意思決定にAIモデルを組み込む場合、単に「予測が当たった」だけでなく、「なぜその予測がされたのか」を説明できる能力が求められます。本記事では、機械学習モデルの解釈性(Explainable AI: XAI)の基本的な考え方と、その具体的な手法について解説します。
1. なぜ機械学習モデルの解釈性が必要なのか?
予測AIモデルの評価において最も重視すべきは予測精度ですが、ビジネス活用においては説明性も非常に重要となります。例えば、顧客への施策対象者をAIモデルが選定する場合、営業担当者が「なぜこの顧客が選ばれたのか」を理解できなければ、適切な営業トークを展開することが困難になります。
解釈性が重要となる主な理由は以下の通りです。
- ビジネス上の意思決定への信頼性向上: モデルの予測根拠を理解することで、ビジネス担当者はその予測を信頼し、自信を持って意思決定に活用できます。
- モデルの改善とデバッグ: 予測が期待と異なる場合や、不公平な結果を出す場合、どの特徴量がどのように影響しているかを特定することで、モデルの改善点やバグを発見しやすくなります。
- 規制遵守と説明責任: 金融や医療などの分野では、AIの意思決定プロセスに対する説明責任が求められる場合があり、解釈性はその要件を満たすために不可欠です。
- ドメイン知識との照合: モデルの予測根拠が、ビジネスのドメイン知識と矛盾しないかを確認することで、モデルの妥当性を検証できます。
ただし、注意すべき点として、予測精度が担保されていないモデルの説明性に言及することはミスリードに繋がり得る、ということが挙げられます。まずは予測精度が目標値を満たしていることが大前提です。
2. モデルの解釈性の基本的な考え方と評価
予測モデルの評価は、まず予測精度の評価を行い、その後に説明性を評価するという流れになります。
2.1 予測精度の評価
目的設計の段階で、予測精度を評価するための指標(MAE, AUC, Precisionなど)と目標値を設定します。モデル構築・評価のフェーズで、これらの評価指標が目標値を満たしているかどうかを評価します。
目標設定には、以下の2つの方法が考えられます。
- ビジネス要件に基づく目標設定: 予測モデルを用いて期待する売上増加やコスト削減の金額効果の目標値を定義し、その金額効果を満たすための施策指標の目標値を設定します。
- ランダム予測に対する優位性: ランダムに予測した場合の予測精度に対して、予測モデルの精度がN倍以上高いことを目標値とします。例えば、2値分類において正例が負例に比べて非常に少ない不均衡な場合、ランダム予測の精度(Precision)と比較して2倍以上を目標とすることがあります。
2.2 説明性の評価
予測精度が目標値を満たしている場合は、以下で説明するSHAPなどXAIの技術を用いて説明性を評価します。具体的には、以下の点を評価します。
- 目的変数に対する特徴量の寄与度: どの特徴量が予測結果にどれだけ影響を与えているか。
- 目的変数の特徴量に対する依存性: 特定の特徴量の値が変化したときに、予測値がどのように変化するか。
- ビジネスのドメイン知識との矛盾がないか: モデルの解釈が、現実のビジネス課題や業界の知見と合致しているか。
3. SHAPによるモデル解釈
XAIの技術として広く知られている手法にSHAP ( SHapley Additive exPlanations ) があります。SHAPは協力ゲーム理論を機械学習に応用したもので、個々の特徴量が予測に与える貢献度を定量化することができます。
SHAPを用いることで、以下の2つの観点からモデルの解釈性を深めることができます。
-
マクロな観点:特徴量の全体的な重要度
SHAPのsummary_plotなどを用いることで、モデル全体の予測にどの特徴量が平均的に最も大きく寄与しているかを可視化できます。これにより、ビジネスにおいて重要と思われる特徴量が適切にモデルに考慮されているか、あるいは予期せぬ特徴量が強く影響していないかなどを確認できます。 -
ミクロな観点:個々の予測に対する特徴量の貢献度
SHAPのwaterfall_plotなどを用いることで、特定の1つのデータポイント(例:ある顧客)に対する予測が、どの特徴量によってどれだけ押し上げられたり、引き下げられたりしたのかを詳細に可視化できます。これにより、「なぜこの顧客が特定の予測結果になったのか」という個別の説明が可能になります。
Feature Importanceとの違い
従来のFeature Importance(特に決定木ベースのモデルで用いられるGini重要度など)は、ある特徴量が分岐に利用された際の不純度の減少量に基づいて計算されます。この値は、モデル全体の特徴量の相対的な重要度を示しますが、個々の予測に対する影響度を説明することはできません。
この手法の大きな課題は、カーディナリティ(取りうる値の種類)の高い連続量の特徴量を過大評価する傾向がある点です。
対してSHAPは、この課題を克服し、連続量の過大評価を起こしにくいだけでなく、個々の予測に対する厳密な貢献度(ミクロな観点)を定量化できるという点で、Feature Importanceよりも高度な解釈を提供します。
Permutation Importanceとの違い
Permutation Importanceは、特定の特徴量をシャッフル(ランダム化)したときに、モデルの予測精度がどのくらい低下するかを評価することで、その特徴量の重要度を測る手法です。これは、Feature Importanceの課題であった連続量の過大評価が起こりにくく、よりロバストな全体的な重要度(マクロな観点)を把握できます。
ただし、Permutation Importanceはモデルの全体的な振る舞い(グローバルな特徴量重要度)を把握するための手法であり、Feature Importanceと同様に、なぜ個々のデータポイントがその予測結果になったのかという個別具体的な理由(ミクロな観点)を説明することはできません。
SHAPは、この個別予測に対する説明性という点でPermutation Importanceを超えています。SHAPは、全体的な重要度(マクロ)と個別の貢献度(ミクロ)の両方を厳密な理論(協力ゲーム理論)に基づいて計算できる、より包括的なXAI手法です。
相関の強い特徴量の影響
予測モデルの中に相関の強い特徴量のペアが含まれている場合、両者の寄与度が過小評価されてしまうことがあります。これは、モデルが予測を行う際に、相関の強いどちらかの特徴量に依存すれば十分であり、もう一方の特徴量の重要性が隠れてしまうためです。因果推論など、説明性が特に重視される場面では、いずれかの特徴量を削除して再度モデルを構築し、予測精度が低下しないかを確認するなどの対応が必要となる場合があります。
まとめ
機械学習モデルの解釈性は、モデルの信頼性を高め、ビジネスへの適用を成功させる上で不可欠な要素です。予測精度を確保した上で、SHAPなどのXAI技術を活用し、モデルの意思決定プロセスを深く理解することで、より効果的なビジネス成果に繋げることができるでしょう。