企業が大規模言語モデル(LLM)を業務に統合するケースが増えるにつれて、これらのシステムが多様な人々の間で公平かつ責任を持って機能するようにすることは不可欠となっています。あらゆるAIや機械学習(ML)アプリケーションと同様に、LLMは、自律的であるか非自律的であるかにかかわらず、学習データに基づいた過去のバイアスを意図せず学習、および再現し、特定のグループを組織的に不利にするシステムを作り出す可能性があります。例えば、昨年スタンフォード大学で行われた研究(英語)では、特定の名前に対する人種や性別の認識の違いに関して、LLMにシステム的なバイアスがある証拠が発見されました。
バイアス評価のアプローチとして、手作業による出力レビュー、抜き打ちチェック、または基本的なデプロイ後の分析といったメカニズムを通じて、システムを事後的にテストする方法があります。しかし、事後的な評価では、より包括的な調査によって明らかになる、微妙ながらも組織的なバイアスのパターンを見逃してしまう可能性があります。責任あるAI(RAI)に関心を持つ組織にとって、公平性をデプロイの必須条件として組み込まない事後的なアプローチでは不十分です。
DataikuのRAIへの取り組みの一環として、LLMの出力におけるバイアスを評価する手段として、データに摂動(わずかな変更)を加える手法を用いた2つのケーススタディーをご紹介します。テスト対象は、製品レビューの要約と製品マーケティングです。
LLM評価の概念
RAIのアプローチによるLLM評価では、プロジェクト開発のあらゆる段階で公平性への配慮を組み込みます。これには、異なる部分母集団(特定のグループ)間の不平等な影響を隠してしまう可能性のある、集約されたパフォーマンス指標よりも深く掘り下げる作業が含まれます。Dataikuは、従来のAIやML向けに、堅牢な部分母集団分析(英語)の機能を備えています。これらの分析を推進するのと同じ原則を、LLMの評価にも適用できます。
LLMが自由形式のテキストを生成し、主観的な判断を行い、そして「正しさ」という概念自体が相対的で文脈に依存する可能性のある文脈で動作することを考えると、LLMの評価への適用には課題があります。
標準的なLLM評価指標は、これらの側面のいくつかを捉えています。「推測を超えて: LLMの品質を評価する方法 (英語)」というブログ記事では、関連性や忠実性といった重要な文脈的概念に関して、自動評価することについて詳しく掘り下げています。指標に基づく評価は、LLMの監視において間違いなく役割を果たしますが、文化的または個人的な適切さとは無関係に、事実への準拠や関連性に焦点を当てることが多いです。しかし、データにごくわずかな変更(または「摂動」)を加えて複数の出力ラウンドを生成し、ラウンド間で指標を比較することで、これらの指標の関連性を向上させることができます。これは、より伝統的な統計テストによって生成される指標についても同様です。
バイアスを検出する場合、多様な人間をループに参加させることで、重要な文脈を提供できます。正解や参照となる回答がないアプリケーションの場合でも、人間には、LLMユースケースの開発を公平性の方向に導くために必要な文脈を提供することができる人生の経験という利点があります。Dataikuは、簡単なラベリング機能(英語)でヒューマンインザループ評価を促進します。これにより、人間のレビュー担当者は、LLMの応答の異なるラウンドをすばやく表示、比較、評価し、開発者が正しい軌道に乗っているか、またはプロンプトやタスクを見直す必要があるかについて、明確なフィードバックを提供できます。
データ摂動への技術的入門
生成AIモデルは「ブラックボックス」モデルであることが多いため、モデルの学習にどのデータが使用され、どのように学習されたかを理解するには限界があります。LLMのファインチューニングは、カスタムデータで学習させることができるため、モデル内のバイアスと戦う潜在的な機会となり得ますが、これは常に実行可能な選択肢ではありません。LLMのファインチューニングができない場合、データ摂動は、モデル学習後でもLLMを評価するために積極的な対策として使用することができます。
摂動は、定義上「システム、物体、または状態に影響を与える小さな変化または妨害であり、しばしばその通常の状態または挙動を一時的に混乱させるもの」です。この概念をLLMに適用すると、入力データにごくわずかな変更を導入するという考えになります。これらの変更は、名前、言語、人種、性別、教育レベルなどに対して適用できます。これらに摂動を適用した後、モデルの出力に何らかの変化があるかどうかを観察します。これらのデータ摂動を扱う際には、一度に一つの情報のみを変更することが重要です(例:男性→女性)。これにより、グラウンドトゥルース(真実)となるデータセットを基に、データを変更した場合の影響を理解することができます。
実際にデータに摂動を適用するプロセスに関しては、複数のアプローチがあります。最も簡単なのは、データ変換ステップを使用して、人種、教育レベル、言語などの属性を変更することです。名前や話し方などの要素を摂動させる場合は、HELM(英語)やLangTest(英語)といった既存のライブラリーがこのプロセスを支援します。
全体的なセットアップ
LLMのバイアス評価におけるデータ摂動の有用性をテストし、統計的、およびヒューマンインザループ評価を試すのに、2つのケーススタディーを準備しました。それぞれにおいて、LLMにプロンプトを出すための関心のあるデータと、ユーザー情報を含む、改変されていないデータセットから始めました。その改変されていないデータセットを使用して、LLMにそのデータを使って何らかのタスクを実行するように促し、このタスクに関するLLMの出力をベースラインとしました。
次に、データ内のユーザー関連のフィールドを1つ以上摂動させ、その摂動されたデータを使用して同じタスクをLLMに再度プロンプトしました。このプロセスは仮説(what-if)(英語)のプロセスをシミュレートし、効果的にグラウンドトゥルースと少なくとも1つの反事実を作成することで、出力間の違いを評価できるようにします。
ベースラインデータセットと年齢の摂動値を持つデータセットのテスト
ケーススタディー: 製品レビューの要約
方法
このケーススタディーでは、ベースラインと摂動されたデータセットから得られるLLMの出力の違いを評価するために、単純な統計テストを使用します。これは、多くの場合にバイアスを検出するのに十分です。
このタスクでは、公開されているAmazon製品レビューのデータセットを利用し、LLMに特定の製品レビューの有用性を評価させます。このタスクにはChatGPT-4o-miniを選択し、レビューのテキストと投稿者の特徴を考慮して、二値の「役立つ(helpful)」または「役立たない(not helpful)」という評価を、それぞれ1または0として返すよう求めました。
ベースラインデータセットに対してこの手順を実行した後、摂動データとして、学歴、そして顧客生涯価値(CLV)の高低を反事実テストに含めました。次に、それぞれが生成する平均有用性スコアを比較し、LLMが特定のカテゴリーに対して、有意に異なる有用性の評価を下すバイアスがあるかどうかを判断します。
Amazon Reviews 2023 データセット(英語)、HuggingFace、McAuley, et al.
結果
上記のデータセットとLLMにおいて、データセット内の各顧客が「大学卒業者」であるとLLMに伝えられたとき、レビューを役立つと分類する可能性は、グラウンドトゥルースや、各顧客が「高校を卒業していない」と提示された場合と比較して高くなりました。しかし、二標本T検定では、ベースライン、「高校を卒業していない」、および「大学卒業者」のテストバージョンのどの組み合わせにおいても、平均有用性スコアに統計的に有意な差は示されませんでした。
顧客生涯価値の摂動では結果がわずかに異なりました。データセット内の各顧客が「高価値顧客」であるとLLMに伝えられたとき、ベースラインや「低CLV」バージョンよりも、レビューを役立つと分類する可能性が統計的に有意に高くなりました。
これは、単純な統計テストであってもいくつかの形式の摂動をテストすることが、特定のデータセット、プロンプト、およびLLMにおけるLLMの処理と結果に影響を与える可能性のあるバイアスのカテゴリーを特定するための道しるべとして機能することを示しています。
ケーススタディ: 製品レコメンデーション
方法
このケーススタディでは、バイアスをテストするために、統計的アプローチとヒューマンインザループアプローチの両方を用いました。
製品名と説明を含むHugging Faceのデータセットを使用して、製品マーケティングメールを生成しました。摂動されたデータでメールが生成されたときに、メールのコンテンツやトーンがベースラインと比較して変化するかどうかをテストすることを目的としました。このタスクにはGPT-4o miniを使用し、製品や顧客情報を直接参照せずにそれらを考慮したパーソナライズされたマーケティングメールを作成するようLLMに促しました。
これを達成するために、まずグラウンドトゥルースのデータセット(たとえば性別など、顧客属性を1つベースラインとして選択)に対してこのプロンプトを実行しました。次にその属性を摂動させ、摂動されたデータセットに対してプロンプトを実行しました。両方のデータセットに対してマーケティングメールを生成した後、VADER感情分析とヒューマンインザループ評価の両方を使用してメッセージを比較しました。
人間の評価については、摂動の内容を明かさずに、グラウンドトゥルースのマーケティングメッセージと摂動されたマーケティングメッセージを示すラベリングタスクを使用しました。これにより、人間はラベル付け時に、メッセージのトーンやコンテンツを基に知覚できる違いがあるかどうかを判断します。
結果
我々の発見は、すべてのメッセージを組み合わせると有意なバイアスはないことを示しました。しかし、性別に特化した摂動を調べると、あるパターンが浮かび上がりました。男性向けに書かれたメッセージが女性向けに書き直されると、わずかに否定的になり、VADER感情スコアが統計的に有意に低下しました。さらに、女性向けに書かれたメッセージが男性向けに書き直されると、有意により肯定的になり、より主観的で感情的な言葉を使用するようになりました。
これは重要です。なぜなら、たとえ小さなバイアスであっても、何千ものメッセージにわたって繰り返されると、ステレオタイプを強化し、消費者の認識を形成する可能性があるからです。これらのパターンを認識するだけでも、マーケティング担当者がよりバランスの取れたコンテンツを作成するのに役立ちます。このパターンは統計的手法を使用して観察されました。
人種(白人→黒人)の摂動に関するマーケティングについては、統計的には有意ではないものの、人間の評価者が詳細に調べると懸念されるパターンが見られました。これをさらに調査するために、評価の一貫性を確保するために、人間のラベル付け担当者が使用する評価方法として、Emma StrattonのVBFフレームワーク(英語)(Value First, Benefit Second, Features Last(価値を第一に、利益を第二に、機能を最後に)を導入しました。このフレームワークを利用したところ、黒人顧客向けのメッセージでは、顧客自身ではなく製品がメッセージの「ヒーロー」として描かれていることが多く、これは顧客自身が「ヒーロー」として描かれていることが多く、これは顧客自身が「ヒーロー」として位置付けられている白人顧客向けのメッセージとは対照的でした。
このケースでは、ヒューマンインザループ評価が、統計テストでは十分に感度が高くなく発見できないような、知覚的なニュアンスを明らかにした可能性があります。一見「小さい」バイアスに見えるものでも、時間とともに蓄積、または拡大し、ビジネス価値の損失とRAI非遵守の両方に関して影響を及ぼす可能性があります。
このケーススタディーは、ヒューマンインザループ評価が、統計テストが提供できるものを超えてバイアス評価をどのように洗練させるのに役立つかを示しています。人間をループに参加させる場合、被験者専門家間の一貫性を確保し、テキストの評価を確立するのに役立つ、関連するフレームワーク(上記のようなVBFなど)や方法論を見つけることが重要です。
結論
企業が自社のより大きな戦略の中で生成AIとLLMを引き続き活用するにつれて、RAIの設計と評価の役割を念頭に置くべきです。全体として、生成AIとLLMは信じられないほど有益であり得ますが、従来の機械学習が懸念なく提供されないのと同様に、この利益には懸念が伴います。幸いなことに、一貫性、信頼性、そしてバイアスのないことをテストするのに役立つ一連の技術はますます増えています。
バイアスのテストには統計的手法がありますが、それだけでは全体像を示さない可能性があることを心に留めておくことが重要であり、可能な限り人間をループに参加させることで、重要な監視を提供することができます。ヒューマンインザループの方法は、データのサイズによっては常に実行可能であるとは限らないため、高リスクまたは機密性の高いカテゴリーや部分母集団に対して人間の監視を絞り込むことが、妥協点となり得ます。
これは常に進化している分野であり、テスト方法はLLMとともに改善され続ける可能性があります。