はじめに
ABEJAアドベントカレンダー企画の記事です。
なんと最終日です。
長くて、コードや数式など技術っぽいものがない記事ですが、最終日に持ってきて大丈夫ですかね・・・??
ABEJAでは法務をやっています。
10年ほど弁護士をしていますが、機械学習に興味を持ちいろいろ勉強して画像解析AIを2年ほど作っていました。論文を読んで一生懸命Pythonで実装していました。
現在は、元に戻って法務やAI倫理関係を扱っています。
今日は、AIの透明性(Transparency)、説明可能性(Explainability)、アカウンタビリティ(Accountability)というようなものを扱います。
去年の企画ではAIと公平性を扱いましたので、続編ということです。
AI倫理関係については、「Q&A AIの法務と倫理」という本を書いたのですが、まあ、結構な値段がしますし、硬い文章で書いていますので、今回は書籍とは違う視点から透明性等の問題について書いてみます。
半年前には、EUのAI規制案についても書いておりますので、興味のある方はご覧ください(知っている限りでは現状一番詳しく、細かく説明しているとは思います。)。
用語の定義をしてくれ!
透明性等については、EUのAIガイドラインやOECDのAIガイドラインでも言及されており、これ以外にも色々なところで「AIの透明性は大事です」などと言われるのですが、そもそも、「透明性」とは何を指しているのでしょうか?特に説明可能性、アカウンタビリティという言葉も存在しており、これらとの区別はどのようになっているのでしょうか?一つのドキュメントで、透明性という言葉だけを使うのなら、良いのですが、アカウンタビリティという言葉も一緒に(定義なく)使っていると、良く分からなくなるかと思います。
また、理解可能性(Understandability)、解釈可能性(Interpritability)という言葉も用いられることがあり、混乱は深まります。
結構な数のドキュメントが、これらの用語の定義を明確にせずに、使っていることもあり、読んでも意味が今一つ分からなかったり、何をしたらいいのかわかりにくかったりするところです。
このため、1つのドキュメントで複数の言葉を使う場合は、用語の定義を行う必要があると思います。
例
チョット例を見てみましょうか。
総務省の発表している「AI利活用ガイドライン」でも透明性とアカウンタビリティについて触れているのですが、36頁で(この手のドキュメントにしては珍しいことに)定義的なものが書いてあり、
透明性の原則 :AI サービスプロバイダ及びビジネス利用者は、AI システム又は AI
サービスの入出力等の検証可能性及び判断結果の説明可能性に留意する。
(主な論点)
ア AI の入出力等のログの記録・保存
イ 説明可能性の確保
ウ 行政機関が利用する際の透明性の確保
アカウンタビリティの原則:利用者は、ステークホルダに対しアカウンタビリティ
を果たすよう努める。
(主な論点)
ア アカウンタビリティを果たす努力
イ AI に関する利用方針の通知・公表
と書いているのです。つまり、透明性はAIの出力関係の点で、システムとしての透明性のようなものを指しているのに対して、アカウンタビリティは脚注にて「判断の結果についてその判断により影響を受ける者の理解を得るため、責任者を明確にした上で、判断に関する正当な意味・理由の説明、必要に応じた賠償・補償等の措置がとれること。」として、広く理解を求めるための情報開示のような点が挙げられているわけです。
対して、EUの「Ethics Guidelines for Trustworthy AI」では、14頁で
Transparency
Including traceability, explainability and communication
Accountability
Including auditability, minimisation and reporting of negative impact, trade-offs and redress.
明らかに同じ言葉なのに指しているものが異なるのです。つまり、EUではcommunicationがtransparencyに含められていますが、この内容は、18頁によるとエンドユーザに対する様々な情報提供を指しており、AI利活用ガイドラインでは透明性の対象になっていないものです。
また、EUのAccountabilityは監査可能性を含んでおり、この監査可能性が具体的にどのような者かは明らかにしていないですが、AIの入出力のログなどの取得が監査可能性確保のために必要なのは当然ですので、AI利活用ガイドラインでは透明性に含まれているログ取得などが、EUでは監査可能性という形でアカウンタビリティに含まれているようなのです。
つまり、両ガイドラインで同じ用語でも意味しているものが異なるのです。
どんな定義にします?
では、ちゃんと用語の定義をしましょう。ドキュメントによっては、説明可能性あたりについては定義をしているものがあるのですが、結構定義が異なります。つまり、言っている人によって定義が結構異なるのですよね・・・
なので、どう定義するのが正しいかという議論になりがちなのですが、ここではやりません。
そもそも定義に正しいかどうかってあるのですかね?
中身がペプシ・コーラのボトルに、コカ・コーラというラベルを張っても、中身はペプシのままですよね?液体Aというラベルを張っても中身はペプシのままですよね。ネーミングとしてややこしいとか、わかりにくいという問題はあるかもしれませんが、理論として正しいネーミング・定義というのは存在しないはずです。
なので、ここでも透明性、アカウンタビリティとか言わずに、「要請1」、「要請2」という言葉を用いて、それぞれ定義して使えばよいのですが、味気もないし、わかりにくいので止めておきます。
透明性、アカウンタビリティ等に確立した定義があれば、それに従うのが混乱の防止のために良いのですが、そのような定義が存在しないため、ここでは適当に定義します。まあ、今後の議論を進めるうえで、便利かという観点からの定義です。
まず、透明性というのは、AI倫理上重要な事項の開示度合とします。概念として、超広いです。どんな事項を、どの範囲に、どう開示するか等はオープンなままです。「AI倫理のためにこんな取り組みやっています!」のような信頼性を直接確保する目的のものから、「当社のAIの精度はこうなっています」のようなユーザやAIの分析の対象者の保護の目的のものもあれば、何でもありです。
次に、説明可能性というのは、後で説明するGrad-CAMやSHAPのような、「なぜこのAIはこう判断したのか」というAIの判断根拠を説明できること・説明できる能力とします。
さて、アカウンタビリティです。結構困るのですよね・・・説明責任という言葉がよく使われており、説明の対象者や内容や目的がオープンなため、透明性とほぼ意味がかぶってしまうところがあるのですよね。ただ、色々なAI倫理のガイドライン(総務省の「AI利活用ガイドライン」など)でも指摘されていますが、行動に責任(法的なものだけでなく法的でない事実的なものを含む)をもり、それに必要な説明を行う責任があるという意味だというようなことが言われています。まあ、「じゃあ、それでいいか」という感じがしますので、一定の責任を負うことを含む説明の話だと定義します。
関係性が分かりにくいですが、上記の定義だと説明可能性は透明性に包摂されています。で、アカウンタビリティもほぼほぼ透明性に包摂されていますが、「ちゃんと責任を負えよ!」という部分だけは透明性に包摂されていないことになります。
定義関係のまとめ
ここまでの議論をまとめると、透明性だとか議論するときはちゃんと定義を確認しようね、定義が不明な場合はちゃんと定義しようね、ただどの定義が正しいかという神学論争に足を踏み入れるのは不毛なので「わしはこう定義する!」と明示して好きなように定義していれば大した問題にならないよ、ということです。
透明性等が問題になった事案
では、透明性等が問題になった現実の事案を見てみましょう。
IBM
まず、日本で問題になった事案として、IBMの人事評価システムの問題があります。
これは、2019年に日本IBMが給与調整するAIを導入しました。よくある定期的に行われる人事評価で給料調整を行うものです。このAIですが、スキルや給料の相対位置、業界での給与水準などの情報をAIが示して、上長に提示するというもので、AIが賃金を決定するわけでも、AIによる情報でそのまま賃金を決定するわけでもなく、上長が最終判断を行うというものです。日本IBMの労働組合は、これに対して、学習用データの内容や、上長に提示されるAIの出力を明らかにするように求めましたが、日本IBMが断ったため、東京都労働委員会に救済申し立てをしました。
まさに透明性が問題になったわけです。
日経クロステックの「「賃金決定にWatson」で日本IBM労組が救済を
申し立てたワケ、問われるAIの透明性」という有料記事か日経コンピュータ2021年9月16日号の同内容の特集に両当事者への取材や詳細な経緯などを含め詳しく紹介されています。
アップルカード
次にアップルカードの事案を紹介します。
これは、アップルがサービスを開始したクレジットカードであるアップルカード(発行人はゴールドマンサックス)はAIによって与信限度額を決めていたようなのですが、男性より女性の方が額が低いことにユーザが気付きSNSで広まったというものです。
これに対して金融当局が調査に入りましたが、ゴールドマンサックスは適切に監査を行っているだけではなく、男女に関するデータを入力していないと主張しました。ただし、公平性の問題の記事
で書いたように、他の入力から男女などを事実上読み取ってしまうというProxyの問題が存在しており、男女のデータを入力していないから男女差別が起きないというわけではないです。また、アップルは、AIの挙動を説明できなかったとされてます。この点において正に透明性が問われた事案といえます。金融の世界のような当局の監査などが想定される場合は、透明性を確保する必要があるのではないかということです。
なお、金融当局はアップルカードが問題となっている法律に違反していないと報告しています。
また、アップルカードは、一部女性の再調査を行い配偶者より著しく低い場合には限度額を引き上げる、与信判断に対する異議申し立ての待機期間を廃止するなどを行って対応していたようです。
最後に、最近話題になったFacebookの内部告発の案件です。
これはFacebookの元従業員(フランシス・ホーゲンさん)が退社前に内部資料をコピーし匿名でウォールストリートジャーナルに提供したのち、2021年10月にCBSのニュース番組に素性を明らかにして出演して更に内部告発を行い、その後、同じく10月にアメリカの議会で証言を起こったというものです(さらにその後、イギリスやEU議会でも証言をしています。)。
内部告発の内容は多岐にわたるのですが、AI関係の部分だけに限定して強引にまとめますと、2018年にフェイスブックは、ユーザがたくさんクリックしてくれたり長時間滞在してくれるなどエンゲージメントを強めるべく、コンテンツ推薦アルゴリズムを改良しました。ところがその結果推薦されやすくなったコンテンツが、フェイクニュースであったり、社会の分断をあおるような内容のものとなったというものです。エチオピアでは、まさに民族対立をあおっている結果になっているようです。このようなAIが民主主義に悪影響を与えること自体は結構指摘されてきていたのですが、Facebookはこの結果を把握していたにもかかわらず、オープンにせずにしてきていた点が、透明性の点から批判を受けました。
他にもインスタグラム(フェイスブックの子会社)を利用した子供、特に女児のメンタルヘルスに悪影響を与えているという研究結果を把握していたにもかかわらず、公開していなかった点なども存在し(ただしAIの話ではない)、民主党も共和党も立法により規制することにかなり乗り気になっている状況です。恐らく近いうちに何らかの規制法案が立法されることでしょう。
まとめ
他にも紹介したい事例はあるのですが割愛します。また、気づいていただきたい点としては、公平性や民主主義の保護といったAI倫理で議論されている他の価値と一緒に論点化することが多いということです。この点は、すぐ後に触れます。
透明性等の目的(一般論)
いくつか事案を見たところで翻って考えてみたいことは、なぜ透明性等が求められるかという点です。もちろん、個別事案ごとの具体化された必要性というのはあるのですが、一般的な観点から検討してみたいと思います。
よく聞くのが、デバッグやAIの精度等を高めるという理由です。なるほどと思うと同時に疑問があるわけです。デバッグをしたり精度を高めてどうするのですか?と。それは結局ユーザの利便性を高めたり、安全性を高めたりということになるわけです。何が言いたいかというと、透明性等は、あくまで手段的な位置づけであり、AI倫理で議論するプライバシーや公平性や安全性といった他の価値とは異なるということです。後者のプライバシー等はプライバシー自体に価値があり、その保護自体がゴールなわけですが、透明性の場合は透明性を高めて実現したい公平性や安全性を高めたいわけです。
又はユーザや分析対象者が間違っていた時に不服申立てを行うことができるようにするということも言われますが、これも、不服申し立てをして貸付限度額を上げてもらったり公平性やらを回復するということで、手段としての機能ではないかと思います。
このような手段的価値であるということは、今まで議論・紹介してきたところに関係があると思っていて、プライバシーなどのように「こういう権利です!」って言いにくくて、定義が今一つはっきりしないところがあるかと思います。また、事案を紹介しましたが、公平性や民主主義などの他の価値と一緒に問題になることが多いのはそういうことかと思います。
そうなると、新しい疑問が浮かびまして、果たして透明性等をプライバシーや安全性や公平性といった他の価値と一緒に並べて、「AI倫理上の重要な価値・原則である」と言ってしまっていいのかということです。手段でしかないでしょ?ということです。まあ、概念的な問題なので、そこまで気合を入れて考える必要もないかもしれませんが、人間というのは特に不利益なことがあると「なぜ」と知りたくなってしまうのが性で、知れないことが大いに苦痛といえるのではないでしょうか。その意味でプライバシーが「知られることが苦痛」というのと同じで、手段的な価値に還元できない価値があると思います(聖書などに出てくる神の沈黙と同じような発想です)。
いろいろな技術
次に、説明可能性に関する技術を紹介します。透明性ではなく、AIの判断根拠を示す説明可能性だけが対象です。というのも、説明可能性については色々な技術が提案されているからです。
といっても記事の分量の関係で、ほとんど紹介できません。
有名どころをいくつか名前と論文だけ示します。皆さんの方が恐らく詳しいでしょうし。
Grad-CAM
画像データにおいて、ヒートマップ等で判断に用いた部分を示す方法ですね。例えば、猫の写真があって、猫と分類した場合に、写真の猫の顔の部分がヒートマップで赤く示されるというものです。まあ、どんな感じかはリンクのPDFの論文を見てください。
LIME
これは、対象データの周辺だけでモデルを局所的に線形モデルで近似する手法ですね。これも、リンク先のPDFの論文では犬がギターを持った画像が例に出ていますが、犬と判定した部分のみ切り取るなどをして、判断根拠を示しているわけです。
SHAP
これも有名ですね。テーブルデータに対する推論で、どの特徴量が結論にどの程度貢献したかを数値で表現するものです。
Influence function
これは、個別の推論データへの推論の結論を出すのに影響が大きかった学習用データを提示することで判断根拠を示す技法です。
また、決定木や線形モデルのような比較的単純なモデルを用いることで、説明可能性を確保するということも行われています。
技術の前に考えること
やっと本題です。以上のような技術を使えば問題は解決できてメデタシメデタシかというとそうではありません。実現するべき透明性なり説明可能性なりの具体化というか特定という非常に難しい問題が存在します。
ここの判断を間違えてしまうと、必要のない開示や説明を行うことになり全く無意味となるわけです。いくら素晴らしい技術を用いても無駄なわけです。
この辺の考え方というのは余り議論されておらず、「こういうことを考える必要があるよね」という部分的な考慮要素を示すだけで、まとめられていない感があります。
ただ一方で、この問題は非常に難しい問題で、一筋縄ではいかないです。
そこで少し、この辺りを何が難しいのかを含めて議論してみようと思います。
特定すべき事項
まず、何が特定すべき事項なのでしょうか?
以下の事項だと考えています。
・誰に対して説明や透明性を確保するのか
・なぜ、どのような目的のため説明や透明性を確保するのか
・どの事項(AIの精度?判断根拠?等)に対する説明や透明性を確保するのか
・どのような内容(どこまで説明するのか?)の説明や透明性を確保するのか
・どういった手段で(HPに掲載?説明書に掲載?重要事項説明書?)で確保するのか?
・本当に説明や透明性の確保が必要なのか?(他の要請との関係)
これらの問題は、単独で検討できることではなく、実際には、一度にすべてが決まるというか、各事項が関連しあっていて単独で決定するのが難しいところがあります。
誰に対して?
まず、誰に対してという点を考えてみましょう。まあ、AIで分析対象になる人やユーザ(ユーザと分析対象者は同一のこともあれば異なることもあります。例えば、スマホの顔認証であれば同一でしょう。対して、画像によるガン判定の場合、ユーザは医師や病 院ですが分析対象者は患者で別になります。)に対して、透明性等が必要ないか考える必要はありそうです。
他にはいないでしょうか?デバッグなどを考えると開発者に対する説明可能性は重要なこともあるでしょう。また、アップルカードの例からも公的機関等による調査や監査人に対する透明性や説明可能性も必要かもしれません。
では、他には?色々なガイドラインでは「ステークホルダーに対する透明性を確保する必要がある」などと書かれているのですが、ではステークホルダーとは誰でしょうか?
つまり、ここが明らかではないのです。ユーザと分析対象者と誰と誰だけが常にステークホルダーですというような明確な形で示すこともできず、事案毎に毎回毎回検討するしかない訳です。
あと、社会の人全般というのも考える必要があるんですよね。「当社はこんな研修してます」「今回のシステムではこんなことに気を付けています」みたいな取組みを広く公開することで社会のAI受容度を上げて、AIを受けれてもらうということがある訳です。「誰が」として考える範囲が広いのですよ。
このあたりが難しいわけですね。しかも、そういったガイドラインには、どうやってステークホルダーの範囲を定めたら良いかについて書いていないのです。そりゃ、実際に開発している人は困りますわな・・・
ステークホルダーの範囲の定め方のキレイな解はないのですが、留意点だけ述べておきますと、一度ステークホルダーの範囲を定めたら、それでお終いというわけではなく、システム内容の変更やAIの内容が具体化してゆくにつれて、変化する可能性があることです。
つまり、1回ステークホルダーの範囲を定めたらお終いというわけではなく、何度も行う必要があるということです。
あと、この「誰に」の点で重要なことは、「誰に」によって説明の内容などが変わってくるという点です。開発者がAIの精度向上などのために説明可能性が必要なのと、ユーザが納得のために説明が必要なのでは状況が異なり、前者ではP値だとかある程度技術的な説明をそのまま垂れ流しても良いのですが、ユーザ(特に専門知識がない一般ユーザ)にはダメでしょう。「誰に」を特定することで、それぞれのステークホルダーの持っている機械学習やドメインの知識や経験を明確にし、それに応じた説明や開示を行う必要があります。
なぜ?
次に、なぜ、どのような目的のために透明性を確保するのかという点について検討します。
目的は結構重要な点で、何を開示するかというような他の検討事項の大きなヒントになることが多いです。
まず、そもそも手段的な観点ではなく「特に不利益があった場合は人間はなぜを知りたがるよね」という知ること自体が価値という点からの目的があり得ます。
まあ、特に一定以上の大きい不利益がかかるような場合に問題になる目的ですね。
あと、手段的な目的の場合もあります。AIの精度向上やデバッグですね。この時重要なのは、本当の目的までたどり着くことだと思います。つまり、その精度向上やデバッグは何のため?ということです。例えば、採用の書類選考AIであれば、求職者が不当に採用の機会を奪われることを防ぐ出会ったり、企業側の適切な人材の採用であったりということになると思います。この誰かが損をしないようにというような目的までたどり着くと、後の検討作業がやりやすいです。
どの事項?
次にどの事項を開示等するかということを考えてみましょう。
基本的には上記の目的との関係で考えることになります。
ここで難しいのは、開示等することでのデメリットの関係です。機密情報の保護だとか悪用だとかです。余り情報を公開や説明しすぎると、機密情報の漏洩になったり、悪用されてセキュリティ上のリスクになることがあります。どこまで開示や説明するかということですね。
どの程度?
次にどの程度説明するのかということも検討が必要です。
重要な事実・特徴量を挙げれば(「収入、年齢、資産に照らして融資はできません」という感じ)よいのですかね?それとも、それらがどの程度重たいのかまで説明するのですかね?このような点を検討するわけです。
これも事案ごとに、目的や説明を受ける人の性質に応じて考えてゆくしかないです。
どう?
また、どのように開示や説明をするのかも重要です。ホームページで広く開示することもあれば、契約書や重要事項説明書のようなもので説明することもありますし、システム上に表示することもあれば、NDAを締結してから開示することもあり得ます。
まあ、開示する情報の内容や開示対象者の広さなどを考えて決めるしかないですね。
必要か?
最後に、開示・説明の必要性について検討します。
色々な事情により開示が出来なかったり、止めた方が良いということがあります。
機密情報の保護やセキュリティや悪用という点は既に述べました。
他にも色々な視点があります。
例えば、ユーザの利便性のようなものです。例えば、自動運転車で、なぜ止まるのかや右に曲がるのかを説明されても困るだけでしょう。かえって不便です。
また、説明を検討している時間の有無というのもあり得ます。株の自動取引は1秒間に千を超える取引を行います。ここで、ユーザに説明を提示されても説明を読み切れません。ただ、他のステークホルダー、例えば監査人などに対しては別かもしれません。このように人ごとに考える必要があります。
また、コストのようなものも重要でしょう。説明可能性を技術的に付与するには、それに応じた計算リソースなどの負担が必要であり、また透明性にしても適切に情報を開示し続けるのは、開示事項の変更が生じた毎に開示しなおすなどを考えると、それなりにコストが必要です。特に計算コストはCO2の発生など環境への影響もありますので、単に企業側がケチっているというだけの話ではない訳です。その中で、重要ではない目的のために、これらのコストを費やすことが適切かということもあるかと思います。
また、説明をし過ぎると、例えば、融資AIで、どのような点をどの程度良く見せたら融資が受けやすいかという情報を伝えることになり、上手くAIの特性に合わせた申込書を作成するというような抜け道的な利用をもたらすことになりかねません。
まとめ
まあ、ここまで長々と透明性だとかについて説明してきました。まず、透明性等の言葉の定義をちゃんと考えようということです。次に、具体的事案にて、どういった問題が生じていて、なぜ透明性等が重要かということを確認しました。最後に、技術は色々あるけど、その前に、ステークホルダーを確定して、各ステークホルダーが透明性等との関係で持つ利益やその意味や重要性を考える必要がある訳です。これは、データサイエンティストやエンジニアといった技術サイドの方だけに任せて良い話ではなく、むしろ、ドメインサイドや経営サイドや法務・コンプライアンスサイドといった方のコミットが求められることになります。
以前の公平性の差異にも同じことを言ったので再度は詳細に述べませんが、つまり色々な人がしっかりとコミュニケーションを取り、一緒に考えることが重要になるわけです。
まあ、結論自体は前回と同じようなものです。
去年と比べて、少しだけですが、法律の方の分野と技術の方の分野が一緒にやっていこうという土台や雰囲気が整ってきたように思います。
これからも、こういった協同を活発に行っていくことや、そのための素地を作ることが重要だと思います。
そのためには、お互いの考え方や用語をしっかりと勉強することが重要になるでしょう。まあ、要は勉強が大事ですということです。