#はじめに
ABEJAのアドベントカレンダーの第・・・何番目だろ・・・??
ABEJAでは、法務担当者をやっています。
弁護士を10年ほどやっていますが、ふとしたことで機械学習の世界をやってみたくなり、独学で、数学書やPRMLや青本やカステラ本やグッドフェロー先生の本を読んだりして、数学やら機械学習理論やらPythonの勉強をしたり、OJTで学んで、3年ほどRDチームを立ち上げて、機械学習モデルの開発・実装や技術調査に携わっていました。今は、法務関係の仕事がメインです。
今日のテーマはAIと公平性です。
色々テーマはあるのですが、ABEJAの中の人のご希望により公平性にしました。
当初は他のアドベントカレンダーの記事みたいに、コードをいっぱい書いて、「公平性確保のためのいろいろな論文を実装して効果を試してみた」「公平性に関する定義について理論面を解説してみた」系の記事にしようかと思っていたのですが、「どうも違うな・・・」「本当の問題をとらえきれていないな・・・」という気がしてきて、あれこれ書いているうちに、ちょっと毛色の違う記事になっちゃいました・・・
AIと公平性の話を知らない人でも読めるように、説明内容や用語には気を付けたつもりです。
また、技術者でなくても読めるように、理論的な部分の話は端折っています。
仮に書いていたとしても、無視しても大丈夫にできています。
あと、長いです。
#AIと公平性ってなによ?
そもそも、AIと公平性って何を議論しているのかのまとめを行っておきます。
###問題点の整理
AIと公平性というとき、いくつかの異なる問題が存在しています。
・ 1つ目が、「AIが女性に不利な公平ではない結果を出力しちゃう、どうしよう・・・」
というような問題、
・ 2つ目が、「AIを実際に利用できるのって、豊かな先進国の人間だけで、
後進国の人間には縁のない話で公平でないよね。」という問題
(後進国を例にしましたが、身体障碍者、老齢者などでも同じ問題点が
指摘されています。)
が存在しています。
2つの問題は、明らかに問題構造が異なります。
なので、何を議論しているのか、よく確認する必要があります。
後者の、後進国を例にした、AIの便益を受けられる人の公平性については、公平性と言わずに、包摂性(Inclusion)として議論されることも多く、後者の問題は、今回の記事のテーマから外します。
まあ、とりあえず、公平性の議論をするにしても、どのような点を問題にしているのか、よく確認しましょうということです。
###実際にあった事案
大体この手の問題と言うのは実事例が発生して、大きく問題化されることが多いのですが、AIと公平性も例にもれず、広く議論がされるようになった切っ掛けのような事案が存在しています。
#####COMPAS事件
比較的初期の事例としては、2016年に明らかになったCOMPAS事件が有名です。
これは、COMPASというアメリカの裁判所が用いている裁判管理システムがありまして、
COMPASには、刑事被告人が再犯するリスクを表示する機能があるということです。
単純化して、出力に閾値を設けてハイリスクとローリスクに分けたうえで、その後、実際に被告人が再犯を行ったかとを比較したところ、黒人と白人でシステムの出力に差異があったということです。
ハイリスクの人が再犯を行って、ローリスクの人が行わなかったという正解率(精度)の点では、黒人白人で差異はなかったのですが、不正解の場合の間違え方に差異があり、白人は「後日再犯した人をローリスクと評価した」、黒人は「後日再犯しなかった人をハイリスクと評価した」という間違いが多かったというものです。
COMPASの出力ですが、裁判でも用いられていたようで、裁判結果に影響を与えていた可能性もあり得ます。
COMPAS側も、人種には配慮していたようで、人種を特徴として入力していないという対応をしていました。
ところが、機械学習システムの方は、人種に関係するような特徴(例えば、ZIPコードや住所で、アメリカでは住所と人種がある程度結びついているらしく、住所からある程度人種が推測できる。)から事実上人種を考慮して推論を行っていたようです(住所が人種の**代理(proxy)**となっているといわれます。)。
#####Amazonの採用支援システム
2018年に明らかになったAmazonの採用支援システムの話も有名です。
Amazonが、エンジニアの採用を効率化すべくネット上から人材を探すシステムを開発しようとしていました。そのため、まず、書類選考を行うAIを作ろうと開発していたのですが、男性を多く合格させる傾向があり、これに気付いて修正を試みましたが、上手くゆかず、開発を断念したというものです。
本件は、結構意味深い要素がありまして、まず、Amazonであっても、なかなか公平性の確保には苦労するという、公平性確保の技術的な難しさを物語っていると思います。また、本件が開発担当者がロイターに語ったことで発覚したなどの点からAmazonのスタンスには色々意見があるところでしょうが、自ら開発を断念した点は、評価されるべき点であり、また公平性の点からの開発の断念もあり得るという事例になろうと思います。
また、本件でも、AIは、女子大学や女子テニス部のような点や男性が好む動詞に着目して判断をしていたようであり、Proxyの問題が発生していたようです。
#####他にも・・・
この他にも有名どころとしては、Apple cardにおける与信限度額判定の男女間バイアス(この件は、説明可能性も問題になる興味深いケースです。)や医療機器における黒人白人間のバイアスなど、非常にたくさんの事例が存在しています。
AI倫理とよく言われますが、公平性については、AI倫理で現在最もホットな分野ではないでしょうか?
また、顔認識システムの問題もありますが、これも最近非常に話題のため、見出しを改めます。
###ここまでのまとめ
AIと公平性という問題領域について、いくつかの例とともにイメージ感をお伝えしました。
大まかにいうとAIの出力が公平性を欠いているというような問題領域を考えているということです。
#顔認識システムに関する動向
顔認証システムと公平性については、最近話題で詳し目に紹介するために見出しを改めます。
###大手ITによる顔認識システムからの撤退等
2020年6月になされた大手IT企業による顔認識システムの撤退等は非常に話題になりました。
具体的には、AmazonとMicrosoftが顔認証システムの警察への提供の一時的な取りやめを、IBMが顔認証システムからの撤退を行いました。これを契機に、顔認証システムと公平性、AIと公平性の議論が急激に盛り上がり、現在、非常に多くの議論がなされている状況です。
###公平性との関係
では、顔認証システムには、どのような倫理的な問題があったのでしょうか。上記の撤退等の以前から、基本的には2点問題が指摘されていました。
1つ目はプライバシーです。様々な場所にカメラを設置して、顔認証システムを動かして、いつ、どこに、誰がいたということを把握することがプライバシー侵害であるということです。
このような問題点の表れといえるものとして、サンフランシスコ市が2019年に公的機関が顔認識システムの利用を条例で禁止したことが挙げられます。
2つ目の問題点は、公平性です。有名な商用の顔認証システムが男女や肌の色で認識率が大きく異なることが、いくつかの論文で発表されています(有名どころですと、これやこれ)。顔認証システムが警察の容疑者探しにも使われていることを考えると、女性や黒人は誤認逮捕されやすい可能性がある訳です。単に「認識率が違うね」という訳ではないのです。
先ほど述べた大手IT企業による撤退等は、主に公平性の方が問題になっています。撤退等の理由を説明していませんが、時期的にも明らかにBLM運動が背後にあるでしょう。
つまり、黒人に対する公平性が撤退等につながっているわけです。
そして、現在、アメリカでは顔認識システムに対して、かなり批判的な見方が広がっており、プライバシーや特に公平性の見地から、警察以外の他の場面でも問題がないかというような議論がなされています。
###日本においてどう考えるかの私見
私は、一応AI倫理だとかに詳しい弁護士ということになっておりまして、弁護士の集まりなどで、この手の話をすることが多いのですが、「日本ではどう考えたらよいか?」というご質問をいただくことが多いです。
非常に難しい問題で、あくまで私個人の見解になりますが、必ずしもアメリカのように顔認識システムに強いネガティヴな評価を下す必要はないかと思っています。
まず、アメリカでも、顔認識システムが最も問題になっているのは警察における利用です。これは、アメリカの歴史的・社会的背景が存在しているといえます。まず、歴史的には、アメリカでは、警察は、南北戦争以前の奴隷制が存在したような時代では、黒人奴隷の逃亡などを取り締まっていたわけで、奴隷制廃止後も、公民権運動に参加する黒人を警棒でボコボコ殴ったりと、黒人の権利運動を妨げる存在という面があったわけです。また、社会的には、アメリカの警察官が丸腰の黒人を殺害するというような事件が毎年多数発生しており、また、ジョージ・フロイド氏の事件のあったミネアポリスでは、警察は黒人に対して白人と比べて7倍の率で実力行使を行っているという状況なわけです。
このような黒人差別の点では異常なアメリカ社会で、(ある一面を見れば黒人の敵とでも言える)警察に、黒人を誤認識しやすい顔認識システムを提供することは非常に危険ですし、倫理的に大問題であると断言できます。
ただ、このような背景のない日本で、全く同じ議論ができるかと言われると、難しいのではないかと思うわけです。
もっとも、だから日本では自由気ままに顔認識システムを使ってよいのかと言われると、やはり躊躇もあり、きちんと日本で検討すべき公平性をよく考えて、顔認識システムを使うべきだとは思います。
#公平性に対処するための技術の状況
以上紹介したように、AIと公平性という問題があり、現実に様々な問題ある実例を引き起こしていることから、AIと公平性に対応するための技術が色々と議論されています。今回は超手短に紹介します。
資料としては、神嶌先生(PRMLの訳でご存じの方も多いはず。)の資料が詳しいです。
###公平性の定義
「公平性の定義」という議論が存在します。この議論を「公平性の定義」と呼んでよいかは個人的には疑問ですが、まあ、「公平性の定義」という呼び方をすることが多いので、ここでは「公平性の定義」と呼んでおきます。
公平性を実現したい属性(例えば、肌の色や性別。センシティヴ情報ともいう。)に関係なく予測結果の採用・不採用の確率が同じになるかを問題にするDemographic Parityという考えがあります。採用AIを例にすると、AIの出力が、男性の場合は採用が75%・不採用が25%の場合、女性も同じように採用75%不採用25%であるべしというわけです。
対して、Equalized oddsという考え方もあります。これは、まず、正解が採用のデータだけ取り出し、AIの出力が、男性の場合は採用75%不採用25%の場合、女性の場合も同じ確率でなければならないが、加えて、正解が不採用のデータだけ取り出し、AIの出力が、男性の場合は採用20%不採用80%の場合、女性の場合も採用20%不採用80%になるべしという考えです。この見解の含意などについては、省略します。
紹介した以外にもCalibrationなど他に色々な考えがあるのですが、ここでは省略します。さて、この論点ですが、公平の定義というよりも、どのような指標で公平性を実現するかという話ではないかと個人的には思います。ですが、この問題意識は、ここではさておきます。
###公平性実現のための手法
また、公平性を実現するための手法についても、色々な手法が提案されています。
公平性に関する正則化をかけたり、最適化の際に公平性に関する条件を付けるなどです。データを変換して、公平性を実現したい属性に関する除法を含まないデータにしてしまい、これを用いて学習するというのもあります。
###まとめ
この手の技術については近年色々な技術が提案されています。ただ、「これだ!」的な決め手のような技術はないという状況です。
#技術の前に考えるべきこと
ここでやっと、「はじめに」に書いた違和感の話になるのですが、紹介したような技術が存在するから「めでたし。めでたし」かと言われると全然違うわけです。その前に、今回プロジェクトのAIシステムで実現すべき公平性とは何かの具体化・特定という非常に難しい検討すべき事項があるだろという訳です。これこそが、AIと公平性の問題の本丸で、これを誤ったら、いくら素晴らしい対応技術等を用いても意味がないものとなります。しかしながら、AIと公平性に関する文献やネット情報では余り触れられておらず、問題提起も大してされていない気がします。また、この「本丸」に関して、適切ではないように見える風潮が存在しているように思えるので、少し意見を述べたいわけです。
ただ、実現すべき公平性の内容の具体化・特定は、非常に難しい作業だと思われます。
以下に、その難しさを検討してみたいと思います。
###公平性の地域・グループによる相対性
まず、公平性は国等の地域により内容が異なるという点が挙げられます。
例えば、有名なものでは、日本は定年制というものが存在しますが、アメリカでは定年制は年齢による差別となります。これは、雇用継続という場面において年齢に関する公平性の考えが日米で異なるということになります。
また、日本国内でもグループにより公平性の概念は異なります。高齢者と若齢者では公平性の内容が異なるでしょう。また、場合によっては都市部か非都市部か、子育て世代か引退世代か等も考える必要があるかもしれません。
当然、AIでも利用されるであろう地域やグループ等を考えて、どの地域やグループの公平性を考えるのか検討する必要がありますが、ユーザのみならず様々なステークホルダーが存在するため、問題は非常に複雑になります。
###公平性の形式性
また、不公平な場合、解消のためにどう対応したらよいかが一義的に決まらないという問題もあります。例えば、男性に有利な採用AIの場合、どう対応したらよいのでしょうか?女性をもっと採用するAIにすればよいとも限らず、男性を情け容赦なく不採用とするように学習しなおすという方向の解決もあり得なくはありません。
###公平性に対象に取り上げるべき属性の特定
そして、さらに難しいのが、公平性を実現すべき属性として何を取り上げるかの決定です。
AIを適用するドメインにも依存し、一律に論じることが非常に難しいものとなっています。
例えば、採用なら、何を公平性を実現すべき属性として取り上げるべきかと言われても難しいかと思います。性別、出身地、人種等ある程度は挙げられるかとは思いますが、「それですべてか?」と問われると、回答に窮するのではないでしょうか。このように公平性を実現すべき属性を適切に特定することは非常に難しい作業となります。AIが学習に用いるデータの内容(性別、年齢、住所等々履歴書に記載されている事項等)から公平性を実現すべき属性を選べばよいということにはなりません。これは、ZIPコードが人種の代理となりえるこという点からも明白です。
また、採用というドメインの中でも、さらに慎重な判断が必要な場合が存在します。例えば、思想(共産主義者だとか)に基づいて不採用としてよいかと言われれば、本人の能力と関係ないため、アウトだと感じる方が多いかと思います。
ただ、法律的には基本的には適法となっています。少し細かい話になりますが、三菱樹脂事件という有名な事件があり、最高裁は「特定の思想、信条を有する者をそのゆえをもつて雇い入れることを拒んでも、それを当然に違法とすることはできない」と述べています。
他方で、倫理や常識的にどうかと言われると、たとえ法律でセーフであっても不適切かと思います。このため、多くの企業では思想を選考基準にしたり、候補者の思想を聞くということをしていませんし、禁止しているかと思います。
ここで分かることは、法律と倫理の世界が異なる場合が存在するということです。どちらに従うのか判断の必要があるわけです。
また、更に思想を理由に採用を決定することをについて考えると、採用は本人の能力等に応じて決定するべきで、それとは関係ないような思想を理由に不採用とすることは、倫理や常識上はアウトそうですが、場合によっては、例外的にセーフになりそうな場合も存在します。例えば、自民党が職員を募集するときに、自民党の考えに賛同できるかで採用を決定していた場合(本当にやっているかは知りません。あくまで仮想事例です。)、これも思想により採用を決定しているわけですが、たぶん、本件はセーフだと思う人が結構いるかと思います。
つまり、「採用というドメインでは思想で判断するのはアウト」とは必ずしも言えず、あくまで個々の事案ごとに、チマチマ丁寧に考えていくしかない訳です。しかも、何が正解か良く分からない問題をです。
住所でも同じような問題が存在しまして、通勤できないような遠方や僻地の居住者を不採用とするという形で利用することは合理性がありますが、住所は本人の能力とは関係がなく、その他の形で利用することは原則的には適切ではないかと思います。ただ、Uターン採用のような場合は別であろうと思います。ここでも、具体的な事案ごとに、住所で採用を決定するのが適切かを判断するしかないことが分かります。
また、以上のような、なにを公平性を実現する属性に取り込むかとは別に、公平性を実現する属性の対象外となった属性であっても、過大(または過少)に考慮することの適否という問題も存在するかと思います。
先ほど、住所については、通勤できないような場所の応募者を不採用とするのに使うのは問題なかろうといいましたが、通勤できないような場所からの応募は、現実問題としてほとんど存在せず、基本的に住所にウェイトを置いて判断することは適切ではないはずです。
または、本人の能力等に関係ないとまでは言えないが関係が薄いであろう趣味や特技に、やたらとウェイトを置いて採用を決定するのも、適切ではないでしょう。
こう言った点も、そのような議論は見ませんが、もしかすると公平性の問題の一部をなしているのかもしれません。
#####データ収集の点からの限界
次に指摘したい問題点としては、公平性を実現したい属性に関するデータを収集できるのかという問題です。例えば、採用で男女で公平に扱いたいという場合、開発したAIが男女の点から公平かをテストする必要があり、このためには、テスト用データに男女のラベルが必要となります。つまり、男女に関するデータを収集(採用における性別の場合、既に収集済みのことが多いでしょうが。)する必要があるわけです。
性別の場合は問題なさそうですが、例えば、LGBTを差別するのは良くないとして、LGBTを公平性を実現すべき属性とする場合はどうでしょうか?男女の場合と同じように、データ主体がLGBT化に関するデータを収集する必要が生じるわけです。当然、このような情報を持っていることは、ほぼあり得ないですし、では、新たに収集するかと言われても、非常に収集が難しいです。また、仮に、今後の採用応募者のデータを取って、新たにデータセットを作るような場合でも、LGBTかを質問したり、履歴書にLGBTかの欄を設けるのでしょうか?たとえ、目的がLGBTに関する公平性の実現であっても、このような質問等をすること自体が倫理的に問題たりえます。
LGBTと言った非常にセンシティヴな情報は、収集すること自体や保有すること自体が倫理的に問題であり得るわけです。そして、センシティブな情報ほど、当該情報に基づく差別は認められない一方、収集や保有自体が倫理的に問題になり得るのかと思います。
つまり、公平性を実現すべき属性を特定できたとしても、今度は当該属性に関するデータを収集することの問題という新しい問題が生じてしまうわけです。そして、収集すること自体の問題ゆえに、当該属性を公平性を実現すべき属性から外さざるを得ないということもあり得るかと思います。
###公平性を実現したい指標
公平性を実現すべき属性が適切に定まったとしても、次は、公平性を実現したい指標を検討する必要があります。Demographic Parityでいくのか、Equalized oddsでいくのか等の問題です。
COMPAS事案も、公平性の定義によっては不公平ではないともいえる事案であり、非常に重要な問題となります。また、複数の指標を同時に満たすことが不可能であることも知られています。
ともあれ、ここでも、ドメインやタスクの内容から、適切に指標を設定する必要があるわけです。これも、明白な正解というものが必ずしも存在しない問題です。
###どこまで公平性を追求するか
また、指標を適切に設定できたとしても、次にどこまで公平性を追求するかという問題が存在します。もちろん、公平性を実現すべき属性間で指標上ズレがないことが望ましいですが、ズレがゼロというのは不可能に近いはずで、どんなに頑張っても誤差的なズレは生じるはずです。また、公平性の実現と精度の確保はトレードオフの関係にあり、ズレが生じてはいるが、これ以上ズレを修正しようとすると精度が低下しすぎてしまうということがあるわけです。
ここでもユースケースなどに照らして、どこまでの精度低下は認められるか、ステークホルダーや社会への説明として、どこまでの不公正の残存が許されるかを考えて、妥協点を見出してゆくことになるわけです。
###対話と協力が必要
ここまでの話をまとめると、色々な技術的な対応の話があるけど、その前に「今回のAIにおける公平とは何?」という文系チックな正解があるようでないような難しい問題が存在しており、それこそが真に注力すべき問題ではないかという訳です。これは、AI開発でも同じで、KPIの設定などコンサル的なところをしっかりやっていないと、いくら素晴らしい技術を使っても意味がないというのと同じかと思います。
しかしながら、最近感じる雰囲気として「公平性の定義とか公平性実現のための正則化のかけ方とかだけ議論してればいいねん」のようなものを感じるわけです。いや、私の思い違いかもしれませんけど。それは、違うんじゃないのと思うわけです。
他方で、法務部やコンプライアンス部のような、本来公平性などを考えるべき人の間で「AIと公平性ていわれても、AIとか難しくてわからんから、全部技術者に任せてればええねん。」というような雰囲気も、感じるわけです(「AIについて色々やっている弁護士をよく見かける」といわれそうですが、それはごく一部です。)。これも違うのではないかと思います。技術者としては、公平性を実現すべき属性の特定などを投げられても困ると思います。AIと公平性を考えるには、規範的な正解のない問題を検討する必要があり、それは法務とかコンプラの仕事だと思うのです。
で、結論ですが、技術者、ドメイン側の人間、法務とかコンプラの人間がしっかりと対話をして協力する必要があるという常識的過ぎる結論になるわけです。
#おわりに
長々と、勿体をつけて色々述べてきましたが、内容自体は大したことない記事だと思います。特に結論に至っては、先ほど述べた通り、当たり前すぎるものなわけです。しかし、こういったことを声を大にして述べてゆくことが重要なのかなと思います。
今回の記事のような内容をもっと知りたい?記事の筆者が2月くらいに、AIと法律・倫理関係の本を、友人の弁護士と共著で出版するらしいですよ。内容自体は法務・コンプラ向けですが、倫理の部分は法律関係の知識がなくても読めるかなと思います。
以上、宣伝でした!!