突然ですが、皆さんは次のような問いについて考えを巡らせてみたことがありますか?
AIのシステムがミスをするとどうなるのか?
なぜそれが問題になるのか?
こうした問題について深く考え、企業として対応策を日頃から練っておくことは、特に近年重要性を増しています。なぜならAIシステムがミスを犯すと、医療や金融、マーケティング、小売など、さまざまな業界の組織にとって、重大な影響を与えるエラーが発生するかもしれないからです。
このような負の影響を抑え、AIシステムからより多くのポジティブな影響を生み出す方法の1つとして、「責任あるAI」があります。これは、表明された意図に沿ってAIを設計、構築、展開するための包括的なアプローチです。AIを実際につくり、扱う人たちは、パイプラインを構築する際の歴史的・社会的背景を認識しています。そしてその知識をもとに、より公平なデータサイエンスアプリケーションを提供しています。組織には、従うべき、もしくは逆に従うべきでない倫理的なルールを正確に定義する責任があると言えるでしょう。これにより、企業がすべての原則に対して明確な立場を取ることができ、組織内でのコミュニケーションも促進されます。
このシリーズでは、責任あるAIの実行方法を複数回に分けてご紹介します。ここでは、いくつかの業界での使用例と、Dataikuで実行可能なヒントやコツをご紹介します。レスポンシブルAIにはいくつかの要素(リスク、プライバシー、セキュリティ、公平性など)がありますが、このブログ記事では、公平性と機械学習パイプラインに関連するレスポンシブルAIに焦点を当てています。
とりわけ、
- データの取り込み、クリーニング、変換
- 明示された目標に向けたモデルの構築
- 実装と継続的なモニタリング
について詳しく説明します。
このシリーズでは「責任あるAI」をAIのライフサイクル全体の一部として捉えています。AIパイプラインを構築する際には、すべての段階で「責任あるAI」を組み込み、ところどころで問いを立ててみたり、重要なチェックポイントを設けておくことが重要です。
ユースケース#1:ヘルスケア業界の医療バイアス
データは中立的なものではありません。データには歴史的、社会的な文脈が含まれており、それを扱うことが機械学習のパイプラインの最初のステップとなります。この最初のユースケースでは、医療業界で使われているアルゴリズムに散見されるバイアスを例にして、モデリングを始める前にデータのバイアスを見つける方法を説明します。
AIを作るエンジニアが潜在的なバイアスの原因を減らしたり、完全に取り除いたりすることを目指していても、多くのAIパイプラインは歴史的な不平等を再現し続けています。米国のヘルスケア業界はその典型です。組織的な人種差別と健康格差の歴史が、医療システムとそれが生み出すデータに埋め込まれています。
例えば2019年、患者に追加の医療処置を施すべきかを判断するアルゴリズムのなかに、黒人患者への偏りがあることが研究者らによって発見されました。つまり、同じレベルの疾患を持つ2人の患者を前にして、モデルは「白人患者の方がよりリスクが高く、追加の医療処置が必要だ」と判断したのです。一方、黒人患者は白人の患者よりも常に重症であったため、患者の人種によって2つの異なるリスク閾値が設定されていました。つまり、このアルゴリズムは、黒人患者と白人患者の間に存在する不平等を再現するものだったのです。
アルゴリズムの開発者は、差別的な製品を作ることを意図していたわけではありません。しかしデータとモデル設計の両方で体系的な差別に注意を払わなかったため、このような問題のあるAIが出来上がってしまったのです。このケースでは、アルゴリズムの開発方法に問題がありました。このモデルでは、「患者の医療費」という変数を「全般的な健康への必要性」を表す変数の代わりとして使い、追加治療が必要かどうかを予測しました。医療費を変数に使うこと自体は理にかなっています。なぜなら病気がちの患者を治療するには、それほど病気がちではない患者よりも多くの費用がかかるためです。このアルゴリズムは、患者の過去の医療費を将来の医療費の指標とし、ひいては追加の医療が必要になる可能性を示すように設計されています。
しかしこのAIをつくった人は、医療費が患者の人種と密接に関係していることを見落としてしまっていました。黒人患者への不当な扱いにより、多くの有色人種は医療システムへの不信感を募らせてきました。その結果、極度の病気や痛みがない限り、医療サービスを利用することが少なくなっているのです。さらに、医療へのアクセスや治療の適用範囲の違いは所得と強く相関しています。したがって低所得の患者は、保険なしでは受けられない治療を拒否することが多いのという実態も見逃せません。そのため、有色人種の患者は、医療ニーズが白人の患者と同じであっても、医療費が低く表示されます。このような人種による医療費の違いは、たとえ「人種」そのものを変数としてモデルに入れなくても、アルゴリズムによって検出されます。
アルゴリズムを開発した人は、モデルに含める変数から「人種」を外すことで、バイアスの重要な要素を取り除くことができると考えたのでしょう。しかしデータが作成された背景や、医療システムにはびこる構造的な不平等を理解していなかったため、有色人種にとって不平等な格差のある治療をアルゴリズムも意図せず再現してしまったのです。データの収集には自分自身のバイアスがかかることが多いため、機械学習プロジェクトのまさに源であるデータによってこうした不平等・不公平さは説明できるときが多々あります。今回の例では、次にあげる3つの原因が働いていると考えられます。
- **プロキシ:**人種や性別などのセンシティブな属性を表す特徴量をモデルを学習する前に取り除いたとしても、有色人種や性的少数者などマイノリティの属性でモデルのパフォーマンスは劣ることがあります。取り除かれなかった特徴量が、取り除かれた特徴量を近似するものとして機能していることが考えられます。
- **歪んだサンプル:**特徴量の値がじゅうぶんに集められないことなどが原因で、そもそものデータサンプルが偏っている場合です。偏ったデータからは偏ったモデルしか生まれません。そのモデルに基づいてビジネス上の意思決定をすると、その結果を受けて集めるデータもより偏ったものになってしまう悪循環が生まれます。
- **正しくないターゲット変数:**教師付き学習では、分類型タスクのターゲット変数を正しいく設定することが重要です。しかしターゲット変数が十分に定義されていない場合や、間違ったラベル付けがされていると、モデルに偏りが生じてしまいます。
Dataikuで「責任あるAI」を実践してみよう!
ヘルスケアのユースケースでは、データの中に隠れて存在していた不平等さを認識して考慮することができなかったため、AIパイプラインの中で必然的にさらなる差別を生み出すことになってしまいました。ここでは、Dataikuでこうした問題を防ぐためのいくつかの方法を紹介します。「責任あるAI」の実践方法には様々なアプローチがあるので、これは網羅的なリストではなく、むしろ始めるための最初のステップとして捉えてください。
病院の入院データを使った例を見てみましょう。このデータは、ニューヨーク州で糖尿病を患っている人たちの4万件の入院データです。人種や性別などの人口動態の情報のほか、安静時の血糖値や心拍数など医療情報の測定値が含まれています。各患者には、医療スタッフから追加のサポートサービスを受けたかどうかを示す「サポートフラグ」の値があります。今回のユースケースではこのデータを使って、患者が入院時に追加の医療サポートを必要とするかどうかを予測してみたいと思います。サポートフラグを予測することでリスクのある患者を入院の早い段階で見つけ出し、死亡事故や再入院の数を減らすのが狙いです。
このような変数が揃ったデータを使うことで非常にパワフルなモデルを構築できそうですが、同時に危険性もはらんでいます。基礎となるデータに隠れたバイアスがある場合はなおさらです。以下では、モデルを構築する前にデータセットに隠れて存在するバイアスを調べるための3つの方法を紹介します。
1. Exploratory Data Analysis(EDA)
EDAはあらゆるデータ分析において重要なステップですが、「責任あるAI」の場合、根本的なバイアスを探すのにも有効です。Dataikuでは、インタラクティブな統計ワークシートを使ってEDAを行うことができます。この機能は以下のように活用できます。
- データサンプルの要約や説明
- データセットのサンプルから母集団に関する結論を導き出す
- データセットの構造を少ない次元数で可視化する
Dataikuにデータセットを取り込んだら、データセットをダブルクリックして、Statisticsタブを開きます。ここではいろんな方法でワークシートを作成することができます。まずは簡単な一変量解析を行い、ターゲット変数であるサポートフラグの分布を調べてみましょう。初期設定のままだと、ワークシートはデータから10万件のサンプルだけを使って分析を計算します。
下図はサポートフラグの全体的な分布を表しています。特別なケアを必要とする患者は全体の37%だけでした。つまりターゲット変数は50:50ではなくアンバランスな割合です。このターゲット変数が、様々なグループ内でも「同じようにアンバランス」であることを確認する必要があります。例えば、グラフの上部にある「No Split」タブを選び、ドロップダウンから男性患者と女性患者のサポートの内訳を調べます。サポートフラグの分布は、2つのグループで非常に似ていることが確認できました。
次に、Race(人種)の変数を使ったグループ分けを試してみましょう。下のグラフが示すように、追加ケアを受けた患者の割合は、白人患者ではグループ平均よりも高くなっています。ラテン系およびアジア系アメリカ人の患者では、追加ケアを受けた患者の割合は平均よりも低くなっています。このようなケアの違いは、実際に入院した患者のタイプによるものかもしれませんし、特定のグループの患者を優先する医療制度の根本的な偏りを反映しているのかもしれません。原因が何であれ、「責任あるAI」のレンズを通してデータを調査しなければ、これらの根本的な偏りを明らかにすることはできません。
2. 統計的検定
データセットの偏りを明らかにするもう一つの方法は,データセット内のグループ間の差を比較するいろいろな統計的検定を使うことです。これらの検定を使うことで、データの基本的な分布に関する情報を見ることができ、それらの分布が予想と異なるかどうか比べることができます。
今回の使用例では、カイ二乗検定統計量を見てみましょう。この検定は、2つのカテゴリー変数が互いに独立であるかどうかを測定します。例えば、人の身長と体重は、身長が体重に強い影響を与えるので、(一般的に)互いに独立ではありません。これに対して、年齢は目の色に影響を与えないので、年齢と目の色が独立しているかどうかは、カイ二乗検定で測定できます。この検定では、データセット内の実際の分布と予想される分布の差を測定します。検定統計量によってその差が有意と判断されれば、2つの変数が互いに独立であるという考えを否定することができます。このようなタイプの有意差検定は、取り除いたはずの変数の近似値を表す別の変数を探し出す一つの方法です。
データの統計検定は、データセットを開いてStatisticsタブからいくつか実行できます。ここでは、「人種と病気の重さの関連性を調べる独立カイ二乗検定」を選択しました。結果が示すように、この2つの変数は互いに独立していません。看護婦が白人ではない患者をMajor(重症)とExtreme(かなり重症)のカテゴリーに割り当てることは予想よりも少ないということが判明しました。白人患者と全く同じ症状であっても、医療スタッフは非白人の患者が感じる苦痛を軽視する傾向があるという研究結果(※参考)があります。つまり、Severity of Illness(症状の重さ)は患者の人種に変わりうる指標であり、このモデルは白人患者と非白人患者の間の根本的な不平等を再現していることになります。
データが様々なソースから集められ、複雑な社会構造を表している場合、不平等さを再現してしまっている隠れ変数を発見するのは難しいです。すべての潜在的なバイアスを探るためには、対象分野の専門家とデータを継続的に調べることが必要になってきます。
3. 格差インパクト
Disparate Impact(格差インパクト)は、データセットの不均衡を判断する手法で、ここ数年、「責任あるAI」の文献で人気を博しています。格差インパクトは、影響を受けやすいグループが、有利なグループに近い割合でポジティブな結果を得ているかどうかを測定します。一般的な経験則では、センシティブなグループのメンバーのうちポジティブな結果を受け取る人たちの割合は、有利なグループのメンバーのうちポジティブな結果を受け取る人たちの割合の少なくとも80%以上であるべきだとされています。
サポートフラグの結果を見てみましょう。EDAを実施したところ、白人患者の42%が特別なケアを受けたのに対し、黒人患者では37%にとどまることがわかりました。この割合は次のように計算できます。
サポートフラッグを受けた黒人患者の割合 ÷ サポートフラッグを受けた白人患者の割合 = 0.37 ÷ 0.42 = 0.88
つまり、全国人患者のうち追加サポートを受けた黒人患者の割合は、白人患者における同様の割合の80%を超えていますので、このケースでは差別的な影響が少ないことがわかります。一方、アジア系アメリカ人の患者のうち、特別なケアを受けている割合は32%であり、白人の患者と比較すると、0.32÷0.42=0.76となります。つまりこの2つのグループの間ではサポートフラッグによる格差が生じていることがわかります。これは、サポートフラッグの分布に偏りがあることを意味しており、モデルの性能に影響を与える可能性があります。
格差インパクトは責任あるAIの分野では興味深い概念です。しかしどのような割合が格差インパクトと認定されるかについては、まだ議論の余地があります。データ実務者としては、データセットのバイアス量を判断する上で80%ルールが適切か、あるいはより厳格な定義が必要かを判断する必要があります。
まとめ
今回はヘルスケア分野でデータの方よりを探す方法をご紹介しました。責任あるAIを構築するための特効薬は存在せず、コンスタントにAIシステムを評価していくことが必要であることを忘れてはなりません。
※参考
-
Hoffman, Kelly M., et al. "Racial Bias in Pain Assessment and Treatment Recommendations, and False Beliefs About Biological Differences Between Blacks and Whites." Proceedings of the National Academy of Sciences 113.16 (2016): 4296-4301.
-
Sabin, Janice A., and Anthony G. Greenwald. "The Influence of Implicit Bias on Treatment Recommendations for 4 Common Pediatric Conditions: Pain, Urinary Tract Infection, Attention Deficit Hyperactivity Disorder, and Asthma." American Journal of Public Health 102.5 (2012): 988-995.
-
FitzGerald, Chloë, and Samia Hurst. "Implicit Bias in Healthcare Professionals: A Systematic Review." BMC Medical Ethics 18.1 (2017): 19.
-
Mills, Angela M., et al. "Racial Disparity in Analgesic Treatment for ED Patients With Abdominal or Back Pain." The American Journal of Emergency Medicine 29.7 (2011): 752-756.
責任あるAIにまつわる5つの神話を覆す
ビジネス視点での責任あるAIについて、このトピックにまつわる5つのよくある神話と、それに関連したシームレスな導入のための現実について、ご関心のある方はこちらをご覧ください。
詳細はこちら(英語)
原文:Introducing the Responsible AI in Practice Series (and Use Case #1!)