元心理学のGACKT(学徒)として、AIの公平性や説明責任について考えてみた #機械学習

はじめに

AIってすごいですよね。事象間の関係を人間では計算・判断しきれないレベルでモデルを作ってくれて、精度の高い予測を可能にしてくれています
ところで、突然ですが、次のチャートを見てください (出所：http://www.tylervigen.com/spurious-correlations)
ぱっと見、２つのグラフはめちゃくちゃ相関しているのは明らかです
- なんと、相関係数は99.26%！これら2つは、互いに良い予測モデルとなり得るに違いない・・・！と、テンションが上がる人もいるかもしれません
- しかし、注意深く見てみると、2つのグラフはそれぞれ
  - 米国メイン州の離婚率
  - マーガリンの消費量
・・・おや？なんだこれは？
- 2つの間に意外な関係があるのか！新事実の発見になるか！
と、1時間くらい頑張って考えても、出てくる答えはとんでも理論にしかならないと存じます
- なぜなら、単純に上記は偶然の相関関係でしかないためです
- 人間なら「そんなの当たり前じゃん」って一笑に付して終わりだと思います
ですが、もし、AIがこれら2つのデータセットを読み込んだ場合はどうでしょうか？
- 仮に、メイン州の知事が離婚率を低減するための施策を検討するにあたり、さあらゆる家庭データをもとに、AIを使って離婚の要因を特定しようとします
- その中には、年収や職業、世帯構成などの情報の中に、たまたまマーガリンの消費量が入っていたとします
- 普通は、マーガリンの消費量なんか調べないと思いますが、AIは色々な可能性を検討してモデルを作ってくれるので、データセットの中に入っていたとしましょう
- すると、AIは十中八九、離婚率をよりよく説明する要素として、マーガリンの消費量を選択することになります
- 人間にはおよそ発想がないですが、AIがそう判断し、過去のテストでもかなり良い成績を出していることになるので、州知事がこのAIモデルを採用し、「離婚率を減らすために、マーガリンの消費量を減らす」という施策が決定され、実行されたらどうなるでしょう
- おそらく、離婚率は変わらず、マーガリン業者が路頭に迷うという悲惨な結果しか生まれないでしょう。。

本題

イントロが長くなりましたが、何が言いたいかというと、「AIはもはやブラックボックスのままではいけない」ということです
自分は、人間が下手に論理立ててモデルつくるより、人間が理解できないブラックボックスでも結果さえ優れていればAIのモデルの方が良いじゃないか。とここ数年考えていました
しかし、AIの説明責任や公平性などというワードを耳にするようになって色々調べていく内に、考え方が変わりましたので、そのシェアをしたいと思います

もっと深刻な例①

一般的に、A.キャビアの消費量と B.個人資産の大きさは、正に相関します
- つまり、キャビアを食べれ個人資産が大きくなるのでしょうか？(A -> B)
- そんなことはありませんよね
- 個人資産が大きいから、お金に余裕があり、キャビアをたくさん食べるということになります（B -> A）
さらに、これらA.とB.は、C.平均寿命とも正に相関するとも考えられます
- なぜなら、お金に余裕があれば、高度医療を受けられるようになるので、一般的に長生きできるようになるからです（B -> C）
しかし、もしB.の情報がなく、A.とC.の情報しかなかったらどうでしょうか？
- キャビアを食べるほど、長生きするような相関関係が生まれます
- そこで、キャビアは長生きにとても良い食品だという因果関係が導出されてしまうかもしれません（A -> C）
- キャビアは高蛋白ではあるものの、脂質・コレステロールも多いので、一般的に考えると、キャビアをたくさん食べるからといって長生きするとは断言するのは難しいと考えられます
とはいえ、AIのモデルが、A.とC.の相関関係を踏まえてよりよく予測できるようなモデルとなってしまった場合、A -> Cという因果関係を人間が認めてしまい、タンパク質やビタミン・亜鉛が方だから的な理由で、健康食品としてキャビアのプロモーションをしてしまうこともあり得るのではないでしょうか

もっと深刻な例②

AIの公平性の問題としてよく出てくる例は、性別のバイアスです
例えば、とある大企業のHR部門の人が、たくさんの応募者の中から、持続率の高い候補者を見つけるために、AIモデルを活用するケースを考えます
この場合、女性にバイアスがかかってしまい、女性を差別して候補者の選別をしてしまうモデルができてしまう可能性があります
- 育児・介護などをするために女性が男性より会社を退職するケースが多く、それは性別というより、女性にそのような役割を求めてしまっている社会的な背景が原因なのかもしれません
- また、男性の方が昇進や継続しやすい社内文化/制度が出来上がってしまっていることが理由で、それは女性が社員にあまりいないからだという根深い原因が潜んでいるかもしれません
いずれにせよ、仮に安易に数字がそう言っているからといって、女性を差別するような採用判断をすることは男女雇用機会均等の理念に違反し、倫理的に許されません
- しかし、AIのモデルをブラックボックスのまま信じてビジネス適用してしまうと、上記のような事象が起きてしまう可能性があります

心理学的に考える

上記の例は、要は「相関関係と因果関係は違う！」ということです
心理学では、交絡変数(こうらくへんすう)/交絡因子/潜伏変数というような概念で捉えて、正しい実証実験をしようとします
- 例えば、キャビアが長生きの食品だということを検証する場合、次のように整理できます
- A. キャビアの消費量 = 説明変数
- B. 個人資産の大きさ = 交絡変数
- C. 平均寿命 = 目的変数
この時、A -> Cを説明しようとしているのに、本当はB.が交絡していないかを検証しなければいけない。という発想になります
- 例えば、個人資産の大きさが同レベルのグループの中で、A -> Cが同じように説明できるのか、というような実験をしなければいけません
この話は、心理学の実験や分析の領域では大昔から擦られまくっている話で、教科書の最初の方で教えられます
しかし、現在隆盛しているAIモデルは基本的に相関関係が中心で、因果関係までは把握しようとしていません
- なぜなら、AIはブラックボックスで、人間では理解できない相関関係から精度の高いモデルが作られ、人間は恩恵を受けられるからです
注意：自分が心理学の出身なのでこのように話していますが、心理学に限らず、統計的分析をする学問においてはどこも全く同じ話だと認識しています

因果関係の問題を解決するために

この問題を解決するためには、心理学のアプローチと同様、実験をした後、「考察」（心理学の実験論文の最後に絶対書くやつ）をし、他の交絡要素の可能性はないかを考え抜き、必要に応じて追試をする必要があります
- そこで、AIモデルに対して、バイアスを検知したり、ビジネスなどに適用する際は人間が理由を理解して責任を持てるようにならなければいけないという話に発展していきます
技術的には、AIを説明していく観点で、次のおようなオープンソースのプロジェクトがあるのでご紹介します
- https://aix360.mybluemix.net/
まだ詳しく自分も見られてはいないのですが、「Neuro-symbolic AI」という研究があり、ニューロンは記号論的な意味を持つとして、双方向の推論・不確実性の表現に挑戦しようとしている動きもあるとのことです

おわりに

2019年くらいから日本政府でもAIの説明責任や公平性などを取りまとめようという動きが出てきているみたいです
- 経産省からは、2021年に次のようなガイダンスが出ています
- https://www.meti.go.jp/shingikai/mono_info_service/ai_shakai_jisso/pdf/20210709_2.pdf
このように、AIが浸透していくに従って、「精度の高いAI」という従来型の課題以外にも、さまざまな課題が出てきて、社会実装する上で、無視できないようになってくると考えます
今回は、AIの公平性・説明責任性という課題を取り上げましたが、他にも、「信頼できるAI」（プライバシー）や、「スケーラビリティのあるAI」（省エネルギー）などの課題もあるため、引き続き、アンテナを張ってキャッチアップしていきたいと考えています