概要、背景
- 機械学習における「大域的(global)な説明」と「局所的(local)な説明の違い」、について調べてまとめる
- 「データサイエンティストスキルチェックリスト」の「データサイエンス力」項目で**「機械学習における大域的(global)な説明(モデル単位の各変数の寄与度など)と局所的(local)な説明(予測するレコード単位の各変数の寄与度など)の違いを理解している」**とあるため、勉強を兼ねて
- スタート時点:機械学習の種類はボチボチ知ってるが、「モデル単位の各変数の寄与度」「レコード単位の各変数の寄与度」と言われてイメージが湧かない
「大域的(global)な説明」と「局所的(local)な説明の違い」とは
- 大域的(global)な説明
- 複雑な機械学習モデルを、可読性の高いモデルで置き換えて説明すること
- 局所的(local)な説明
- 複雑な機械学習モデルの、ある入出力例の周辺に対する挙動を(可読性の高いモデルなどを使って)説明すること
- 調べた内容は↓
調べたもの
機械学習における解釈性 - 人工知能学会
- 大域的な説明
- 複雑なブラックボックスモデルを可読性の高い解釈可能なモデルで表現することで説明とする方法。
- 深層学習モデルやランダムフォレストのような決定木のアンサンブルなどの複雑なモデルを可読性の高いモデル、例えば単一の決定木やルールモデルで近似的に表現することでモデルの説明とする。
- 局所的な説明
- 特定の入力に対するブラックボックスモデルの予測の根拠を提示することで説明とする方法。
- ある入力xをモデルがyと予測したときに、その予測の根拠を説明として提示する。
- 大域的な説明
- ブラックボックスモデルに対して、似た結果を出せる可読性が高いモデルを作って、それで代わりに説明する
- 局所的な説明
- 「このインプットをしたら、中でこういう処理がされて、このアウトプットが出ます」と説明する
機械学習における解釈性について
- 大域的な説明を与えるアプローチ;どの特徴量が重要か、あるいは支配的なのかを知りたい
- 局所的な説明を与えるアプローチ;ある入力対して各特徴量がどのように予測に寄与しているかを知りたい
- 大域的な説明
- モデルとしてどの特徴量が効いてるのか、に注目
- 局所的な説明
- インプットからアウトプットまでの途中経過、に注目
Interpretable Machine Learning
5.6 Global Surrogate
- 大域的な説明
- データセットに対するブラックボックスモデルの出力を、解釈可能なモデルで説明する
- データセット準備
- データセットに対して、ブラックボックスモデルで予測する
- 解釈可能なモデルを選び、データセットを説明変数、ブラックボックスモデルの予測値を目的変数として学習する
- 解釈可能なモデルで、ブラックボックスモデルを説明する。
5.7 Local Surrogate (LIME)
- 局所的な説明
- ある入出力例の周辺のブラックボックスモデルの挙動を、解釈可能なモデルで説明する
- ブラックボックスモデルの挙動を説明したい入出力例を選ぶ
- 入力例の周辺で入力データのセットを作り、ブラックボックスモデルで出力データのセットを作る
- 作ったデータたちに重みづけする(説明したい入力例に近いほど大きい数値)
- 解釈可能なモデルで、入力データ・出力データのセットを学習する(重みづけを考慮する)
- 作った解釈可能なモデルで、入出力例周辺のブラックボックスモデルの挙動を説明する。
なぜ解釈性が大事なのか
- 社会からの、ブラックボックスでは安易に信頼できない、という懸念の声
-
「AI開発ガイドライン案」での以下の要求。
- 透明性の原則: 開発者は、AIシステムの入出力の検証可能性及び判断結果の説明可能性に留意する。
- アカウンタビリティの原則: 開発者は、利用者を含むステークホルダに対しアカウンタビリティを果たすよう努める。
- サービスを提供する事業者としての説明責任
- 推論結果に対する社内外の関係者の理解
- モデルのデバッグ、精度改善