Anthropic の生成 AI におけるレッドチーミングの記事を読んでみる

Last updated at 2024-08-24Posted at 2024-08-24

ばじめに

セキュリティ業界にはレッドチームという言葉があって、Wikipedia によると、ある組織のセキュリティの脆弱性を検証するためなどの目的で設置された、その組織とは独立したチームを指します。そして、システムの潜在リスクや脆弱性を洗い出すために様々な攻撃を行って、それらに対する反応を評価することをレッドチーミングと言います。

生成AI界隈でもレッドチーミングという言葉が使われていて、Anthropic は「Challenges in red teaming AI systems」という記事を公開しています。この記事では、Anthropic が自社の AIシステムを評価するために実施したレッドチーミングから得られたインサイトが共有されています。それぞれの手法の利点と課題についても述べられていて、AIシステムのレッドチーミングをしたいと考えている人の参考になりそうです。

では、読んでいきましょう。元の記事を上から読んでいきますが、完全な翻訳ではなく、意訳です。

レッドチーミングとは何か

レッドチーミングは、AIシステムの安全性とセキュリティを向上させるためのもので、システムに対して敵対的なテストを行い、潜在的な脆弱性を特定することを目的としています。現在、研究者やAI開発者は、さまざまなレッドチーミング手法を使用してAIシステムをテストしており、それぞれに利点と欠点があります。

とはいえ、AIレッドチーミングのための標準化された手法が確立されているわけではないので、実践するのは難しいでしょう。同じ種類の脅威モデルを評価するために異なる手法を使用することもあり得ますし、同じアプローチでも具体的な方法が異なったりします。そのため、異なる AIシステムの安全性を客観的に比較することが難しくなっています。

この問題を解決するために、AIシステムに対する体系的なレッドチーミングの手法と基準が必要です。そこで、Anthropic は自分たちが探求してきたレッドチーミング手法の概要を共有し、定性的なレッドチーミングから自動評価の開発まで、反復的なプロセスにどのように行うかを示すことにしました。

レッドチーミングの手法

ドメイン固有の専門的なレッドチーミング

信頼と安全性: ポリシーの脆弱性テスト
国家安全保障: フロンティア脅威に対するレッドチーミング
地域固有: 多言語・多文化に対応したレッドチーミング

言語モデルを使用したレッドチーミング

自動化されたレッドチーミング

新しいモダリティでのレッドチーミング

マルチモーダルなレッドチーミング

オープンエンドで一般的なレッドチーミング

一般的な害に対するクラウドソーシングによるレッドチーミング
一般的なリスクやシステムの限界に対するコミュニティベースのレッドチーミング

次に、上記のレッドチーミング手法のそれぞれについて、利点と課題を説明します。

ドメイン固有の専門的なレッドチーミング

ざっくりいうと、ドメイン固有の専門的なレッドチーミングは、対象分野の専門家と協力して、AIシステムにおける潜在的な脆弱性やリスクを特定し評価することを指します。専門家の協力を得ることで、複雑で文脈依存の問題に対する深い理解が得られます。

信頼と安全性に関わるリスクのためのポリシー脆弱性テスト

人々に深刻な害を及ぼしたり、社会に悪影響を与えたりするような高リスクの脅威には、しっかり設計されたレッドチーム手法や外部の専門家との協力が必要です。信頼と安全性の分野では、「ポリシー脆弱性テスト（PVT）」と呼ばれるレッドチーミングの手法を採用しています。PVT は、Anthropic の利用ポリシーでカバーされているさまざまなトピックに関して、外部の専門家と協力して行う詳細で定性的なテスト手法です。たとえば、子どもの安全に関する問題では Thorn と、選挙の公正性に関しては Institute for Strategic Dialogue と、過激主義の問題では Global Project Against Hate and Extremism と協力しています。

利点と課題

利点	課題
深い専門知識: PVTは、特定の政策分野において長年のキャリアを積み重ねた外部の専門家と協力して行われます。彼らの洞察や繊細な理解は、特定の高リスクな失敗モードを明らかにすることができ、AIシステム開発企業が専門的な知識がないために見落としがちな部分を補うことができます。	手動プロセス: PVTは、AIシステムに対する特定の危害を手動で調査する必要があるため、さまざまなモデルのプロンプトやモデルタイプを迅速に繰り返しテストすることが困難です。
システム改善のサイクル: 専門家は、AIシステム開発企業のポリシーの脆弱性や欠点、検出方法、安全性分類器、基礎モデルの脆弱性などを特定する手助けをします。これらの発見は、ポリシーの開発、施行、モデルのトレーニング、評価プロセスにフィードバックされ、複数の観点のリスクの解消と軽減に役立ちます。	広さより深さ重視: PVTは通常、特定の分野の専門家と協力して行うため、AIシステム開発企業は他の分野に分類される危害を評価するには、別の方法を見つける必要があります。

利点

課題

深い専門知識: PVTは、特定の政策分野において長年のキャリアを積み重ねた外部の専門家と協力して行われます。彼らの洞察や繊細な理解は、特定の高リスクな失敗モードを明らかにすることができ、AIシステム開発企業が専門的な知識がないために見落としがちな部分を補うことができます。

手動プロセス: PVTは、AIシステムに対する特定の危害を手動で調査する必要があるため、さまざまなモデルのプロンプトやモデルタイプを迅速に繰り返しテストすることが困難です。

システム改善のサイクル: 専門家は、AIシステム開発企業のポリシーの脆弱性や欠点、検出方法、安全性分類器、基礎モデルの脆弱性などを特定する手助けをします。これらの発見は、ポリシーの開発、施行、モデルのトレーニング、評価プロセスにフィードバックされ、複数の観点のリスクの解消と軽減に役立ちます。

広さより深さ重視: PVTは通常、特定の分野の専門家と協力して行うため、AIシステム開発企業は他の分野に分類される危害を評価するには、別の方法を見つける必要があります。

国家安全保障リスクに対するフロンティア脅威レッドチーミング

Anthropic は国家安全保障リスクに対するAIシステムのレッドチーミングアプローチについてのブログを公開して以来、「フロンティア脅威」（国家安全保障に重大なリスクをもたらす可能性のある領域）を評価するための手法の構築や、レッドチーミングに深い専門知識をもたらす外部パートナーとの連携を進めています。フロンティアレッドチーミングのタスクは主に、化学・生物・放射線・核（CBRN）、サイバーセキュリティ、そして自律型 AIリスクに焦点を当てています。これらの分野の専門家と協力し、システムのテストや新しい評価手法の共同設計を行っています。脅威モデルに応じて、外部のレッドチームは「実世界」の環境でリスクを調査するために、Claude の標準的な商用版を使用する場合もあれば、異なるリスク軽減策を用いた非商用版を使用する場合もあります。

利点と課題

利点	課題
深さ: フロンティア脅威レッドチーミングにおいて、Anthropic のアプローチは少数の脅威を徹底的に調査することに重点を置いています。まず、優先度の高い脅威モデルを定義し、その脅威モデルに対する障壁を列挙します。その後、専門家と協力して数百時間にわたり質的にシステムをテストし、得られた定性的な洞察をスケーラブルで定量的な評価手法に変換します。このプロセスを通じて、特定の脅威が AIシステムによって悪化する可能性があるかどうかについて、深く理解します。	機密情報の取り扱い: 国家安全保障に関するレッドチーミングでは、機密情報に関する知識が必要であり、さらに機密情報が明らかになる可能性もあります。公開された情報の種類によっては、公的部門のパートナーが AIシステム開発企業と共有できる内容が制限されることがあり、その結果、企業が潜在的なリスクを評価・軽減する範囲が狭まる可能性があります。
専門知識: 国家安全保障の脅威を評価する際には、通常、政府関係者やそのパートナーの専門知識が必要です。これらの組織は、現実世界の脅威モデルに関する深い理解を持ち、機密情報の取り扱いにも優れています。	運用上の負担: 他の外部パートナーシップと同様に、パートナーが効果的にレッドチーミングを行うためには、適切な技術環境の整備やモデルのノウハウ提供が必要となり、これには多大なエンジニアリング、プロジェクト管理、そして予算が必要です。
官民連携: 公的部門と民間部門の協調と協力は、それぞれの独自のスキルセットを活用し、公衆の安全にとって重要な脅威を軽減するのに役立ちます。また、将来の官民連携に関する指針を提供することにもつながります。

多言語・多文化レッドチーミング

Anthropic のレッドチーミング作業の大半は英語で行われ、通常はアメリカ在住の人々の視点で実施されています。このような視点の偏りをよりよく把握し、理想的には対処までするための一つの方法として、他の言語や文化的コンテキストでレッドチーミングを行うことが挙げられます。公共部門が教育を主導することで、地域住民が AIシステムを言語スキルや特定のコミュニティに関連するトピックに関してテストできるようになります。例えば、Anthropic はシンガポールのインフォコム・メディア開発庁（IMDA）および AI Verify Foundation と提携し、シンガポールの視聴者やユーザーベースに関連するトピックについて、英語、タミル語、中国語、マレー語の 4言語にわたるレッドチーミングプロジェクトを実施しました。この作業や、より広範なレッドチーミングから得られた洞察について、IMDA および AI Verify Foundation から公開されることが期待されます。

利点と課題

利点	課題
グローバルな代表性: 各地域で「現地」の専門家と協力することで、AIシステムがアメリカ以外の地域に関連するトピックを理解する際の課題を、より的確かつ包括的に特定することができます。	拡張が難しい: 単独で行われるこれらのレッドチーミングの取り組みは、異なるモデルやプロバイダー間でスケールさせるのが困難です。これらの知見が共通の基準や他の環境で作業を再現するためのプレイブックとして確立されのが理想的です。
政府の能力向上: IMDA や AI Verify Foundation の取り組みのような政府主導のレッドチーミングプロジェクトは、公共部門のレッドチーミングおよびモデル評価基準の開発能力向上に役立ちます。	対処が困難: 手動によるレッドチーミングでは、独立した断片的なモデルの失敗が特定されることが多く、これらは一貫した望ましくない動作パターンに比べて、対策を講じるのが難しい場合があります。

言語モデルを使用したレッドチーミング

言語モデルを使用したレッドチーミングとは、AIシステムの機能を活用して、自動的に敵対的な例を生成し、他の AIモデルの堅牢性をテストすることです。これにより、手動でのテスト作業を補完し、より効率的かつ包括的なレッドチーミングが可能になります。

自動化されたレッドチーミング

モデルの能力向上に伴って、Anthropic はそれらを活用して、手動テストを補完する自動レッドチーミングに興味を持っています。具体的には、レッドチーミングによってどれくらい有害な行動を減らせるかを理解することを目指しています。このために、レッドチームとブルーチームのダイナミックなプロセスを採用しています。レッドチームでは、ターゲット行動を引き出す可能性の高い攻撃をモデルで生成し、ブルーチームでは、そのレッドチーミングされた出力に基づいてモデルを fine-tune し、同様の攻撃に対してより堅牢にします。このプロセスを繰り返すことで、新しい攻撃手法を考案し、理想的には、さまざまな敵対的攻撃に対してシステムをより堅牢にすることができます。

利点と課題

利点	課題
迅速な反復: 自動化されたレッドチーミングでは、人間が手動でシステムを調査する際のボトルネックを回避できます。これにより、レッドチーミングのコストが予算的にもリソース的にも削減されるだけでなく、より広範なリスクに対して迅速に反復しながらテストを行うことが容易になります。	人間の水準に届かない: 現在の AIシステムが生成するレッドチーム攻撃は、人間が実施するものほど新規性や創造性が含まれない可能性がある。
暴露機会の抑制: 自動化されたレッドチーミングは、人々が有害または機密情報に触れる機会を最小限に抑えます。	さらなる研究が必要: 自動化されたレッドチーミングは比較的新しい研究分野であり、攻撃の多様性や複雑さを向上させる方法や、モデルが生成したプロンプトに対する堅牢性が人間が作成したプロンプトにも適用可能かなど、追加の研究が有益な分野がいくつも存在します。

利点

課題

迅速な反復: 自動化されたレッドチーミングでは、人間が手動でシステムを調査する際のボトルネックを回避できます。これにより、レッドチーミングのコストが予算的にもリソース的にも削減されるだけでなく、より広範なリスクに対して迅速に反復しながらテストを行うことが容易になります。

人間の水準に届かない: 現在の AIシステムが生成するレッドチーム攻撃は、人間が実施するものほど新規性や創造性が含まれない可能性がある。

暴露機会の抑制: 自動化されたレッドチーミングは、人々が有害または機密情報に触れる機会を最小限に抑えます。

さらなる研究が必要: 自動化されたレッドチーミングは比較的新しい研究分野であり、攻撃の多様性や複雑さを向上させる方法や、モデルが生成したプロンプトに対する堅牢性が人間が作成したプロンプトにも適用可能かなど、追加の研究が有益な分野がいくつも存在します。

新しいモダリティでのレッドチーミング

新しいモダリティでのレッドチーミングは、画像や音声など、さまざまな形式の入力を処理し対応できる AIシステムをテストすることを指します。これにより、システムがデプロイされる前に、これらの機能に関する新たなリスクや失敗モードを特定できます。

マルチモーダル・レッドチーミング

Claude 3 ファミリーのモデルはマルチモーダルであり、画像を生成することはできませんが、写真、スケッチ、チャートなどの視覚情報を取り込み、それに応じてテキストベースの出力を提供することができます。この機能には、新たなリスク（詐欺行為、子どもの安全に対する脅威、暴力的過激主義など）が潜在的に存在します。Claude 3 のリリース前に、Anthropic の Trust & Safety チームは、画像やテキストに基づくリスクについてシステムをレッドチーミングし、外部のレッドチームと協力して、モデルが有害な入力（画像とテキストの両方）に対してどれだけ適切に拒否するかを評価しました。新しいモデルの機能やモダリティを含むシステムにおいて、リリース前のレッドチーミングは特に重要です。

利点と課題

利点	課題
リリース前の安全性テスト: さまざまなモダリティでのレッドチーミング、特に特定のモデルクラスにとって新しいモダリティでのテストは、開発者がリリース前に新たな失敗モードを特定するのに役立ちます。これにより、実世界で悪影響を及ぼす前にリスクを軽減できます。	関連する専門知識: 危険な武器などの高リスク分野における深い専門知識は非常に希少であり、ほとんどの場合、開発企業の外部に存在します。そのため、開発者は外部組織と緊密な関係を築く必要があり、これには財政的および運用上のリソースが必要です。
エンドツーエンドのシステムテスト: 多くのリリースされたAIモデルは、モデル自体、有害性分類器、プロンプトベースの介入など、相互に関連する複数のコンポーネントや機能で構成されたシステムです。レッドチーミングは、AIシステム全体のレジリエンスをストレステストし、重複する安全機能の効果を理解するための効果的な方法です。	安全性の懸念: マルチモーダルのレッドチーミングは、テキストのみのコンテンツを読む場合とは異なり、視覚的な画像を見ることが含まれるため、レッドチームのメンバーの健康に対するリスクが高まり、追加の安全対策が必要となります。

利点

課題

リリース前の安全性テスト: さまざまなモダリティでのレッドチーミング、特に特定のモデルクラスにとって新しいモダリティでのテストは、開発者がリリース前に新たな失敗モードを特定するのに役立ちます。これにより、実世界で悪影響を及ぼす前にリスクを軽減できます。

関連する専門知識: 危険な武器などの高リスク分野における深い専門知識は非常に希少であり、ほとんどの場合、開発企業の外部に存在します。そのため、開発者は外部組織と緊密な関係を築く必要があり、これには財政的および運用上のリソースが必要です。

エンドツーエンドのシステムテスト: 多くのリリースされたAIモデルは、モデル自体、有害性分類器、プロンプトベースの介入など、相互に関連する複数のコンポーネントや機能で構成されたシステムです。レッドチーミングは、AIシステム全体のレジリエンスをストレステストし、重複する安全機能の効果を理解するための効果的な方法です。

安全性の懸念: マルチモーダルのレッドチーミングは、テキストのみのコンテンツを読む場合とは異なり、視覚的な画像を見ることが含まれるため、レッドチームのメンバーの健康に対するリスクが高まり、追加の安全対策が必要となります。

オープンエンドで一般的なレッドチーミング

一般的な害に対するクラウドソーシングによるレッドチーミング

2022年半ばに Anthropic がレッドチーミングの研究を開始した際、セキュリティ脆弱性に対するソフトウェアシステムのレッドチーミングに関する豊富な文献はありましたが、言語モデルに対するレッドチーミングの基準はほとんど存在しませんでした。この研究は純粋に研究目的で行われ（当時はまだ AIアシスタント Claude のリリース前）、特定の脅威に対するレッドチーミングを依頼するのではなく、作業を依頼したクラウドワーカーが自分の判断とリスク許容度に基づいて攻撃タイプを選ぶようにしました。また、この作業は厳密に管理された環境で行われました。

利点と課題

利点	課題
レッドチーミングのスキルを向上: 開発者は、効果的かつ責任あるレッドチーミングの手法や内部プロセスを磨くことができます。	深さでなく広さ重視: クラウドワーカーは、高リスクな脅威モデルに対する専門的な理解が不足している可能性があります。そのため、特定された危害は一般的な範囲に留まり、調査が網羅的でない場合もあります。
新たなリスク領域の特定: 開発者は、モデル内の潜在的な問題領域や脆弱性を把握し、それを基にリスク軽減計画を立てることができます。	運用上の負担: クラウドワーカーと協力することは、開発者にとって過度にリソースを要する場合があります。堅牢なクラウドワーキングの取り組みを立ち上げるには、予算的、技術的、および運用上のリソースが必要です。
再利用可能なデータリソースと評価の構築: これらの取り組みで収集されたデータは、ベンチマークとしてまとめられ、さまざまなレッドチーム攻撃に対する異なるモデルのレジリエンス評価に使用できます。	クラウドワーカーの安全に関する懸念: レッドチーミングの種類（例: テキストのみかマルチモーダルか、特定の脅威モデルなど）によっては、クラウドワーカーが有害なコンテンツにさらされる可能性があります。開発者は、このグループの安全と健康をサポートするために追加の予防策を講じることが重要です（例: 暴露を最小限に抑えるためのカスタムユーザーインターフェースの構築）。Anthropic の過去のレッドチーミング作業では、考慮すべき安全対策のリストを限定的な形で示しました。
システムの悪用耐性を強化: 同様に、得られたデータは、モデルのトレーニングプロセス（例: 強化学習で使用される嗜好モデルの開発）やシステムコンポーネント（例: 有害性分類器）の改良に再利用され、AIシステムの耐性をさらに強化できます。

一般的なリスクやシステムの限界に対するコミュニティベースのレッドチーミング

AIモデルのレッドチーミングが一般化する中、DEF CON の AI Village のような取り組みが、公開されたシステムのテストに社会の幅広い層を巻き込んできました。2023年には、Generative Red Teaming (GRT) チャレンジが開催され、年齢や分野を問わず数千人が参加し、その中には技術的なバックグラウンドを持たない参加者も多くいました。参加者は意欲と創造力を持って Anthropic や他のラボが提供するモデルをレッドチーミングしました。Anthropic は、GRT チャレンジや同様のイベントが、より多様な人々が AIの安全性に関わる活動に参加するきっかけとなることを期待しています。

これまでに紹介したさまざまなレッドチーミング手法は、それぞれに強みと課題があり、これらがどのようにして AI業界におけるレッドチーミングの標準化に貢献できるかを次に議論します。

利点と課題

利点	課題
一般の参加者: GRTチャレンジのようなイベントは、一般の人々が現在使用している（または将来使用するかもしれない）システムのテストに積極的に参加する機会を提供します。	深さより広さ重視: クラウドワーカーによるレッドチーミングと同様に、これらのイベントには通常、専門分野の専門家が関与しません。レッドチームの試みは、明確な脅威モデルや高リスク分野ではなく、一般的な種類の害を代表する傾向があります。
一般的な害の特定: これらのイベントに参加するレッドチームは、AIシステムを使用する一般のユーザー層をよりよく代表している可能性があり、リリース後に発生することが予想される一般的な失敗モードを幅広く開発者が認識することができます。	運用上の負担: コミュニティイベントには、多くのモデル提供者を集めることや、レッドチーミング専用の技術プラットフォームを開発することなど、かなりの組織的な負担がかかります。
教育の機会: AI企業外の人々が、AIシステムに親しみ、レッドチーミングの専門知識を深めるために必要なスキルを身につけることができます。GRTチャレンジのようなイベントを通じて、参加者は互いに学び合い、開発者から直接話を聞くことができます。	不明確なフィードバックループ: これらのイベントと、その後の開発者による対応との間のフィードバックループは明確ではなく、標準化されていません。

定性的なレッドチーミングから定量的な評価へと移行するにはどうすればよいか？

上記のレッドチーミングの実践は、潜在的なリスクを明らかにするだけでなく、自動化された定量的な評価手法を構築する前段階としても機能します。これはレッドチーミング分野におけるメタ的な課題でもあります。つまり、レッドチーミングの結果をどのようにして、レッドチーミングされたシステムを持つ組織にとって価値を増大させるものに変えるかということです。

理想的には、レッドチーミングは、AIモデルのリスクをさまざまな手法（手動および自動化された技術を使用）で評価し、それに応じた対策を実施し、そのガードレールの効果をテストするという反復ループの一部であるべきです。

プロセスの初期段階では、専門家が潜在的な脅威モデルの詳細な説明を作成し、それを基に AIモデルを試験的にテストして脅威を引き出そうとします。レッドチームが問題領域についての理解を深めるにつれて、レッドチーミングの手法が標準化され、入力を修正して有害な行動をより効果的に引き出すようになります。

そこから、言語モデルを使用して、これらの入力の数百から数千のバリエーションを生成し、より広い範囲をカバーできるようにします。このプロセスを通じて、臨機応変な定性的な人間によるテストから、より徹底的で定量的かつ自動化されたテストへと移行します。

Anthropic は、この反復的アプローチを採用し、国家安全保障リスクに関するフロンティア脅威レッドチーミングや選挙の公正性リスクに対するポリシー脆弱性テストでスケーラブルな評価を開発してきました。また、この手法を他の脅威モデルにも適用することにも意欲的です。

ポリシーに関する提言

Anthropic は、レッドチーミングのさらなる普及と標準化を支援するために、ポリシーの立案者には以下の提案を検討することをおすすめします。

技術標準と共通の実践方法の開発資金提供: 国家標準技術研究所（NIST）などの組織に資金を提供し、AIシステムを安全かつ効果的にレッドチーミングするための技術標準と共通の実践方法を策定する。
独立した政府機関や非営利団体の支援: 独立した政府機関や非営利団体の設立や運営に資金を提供し、開発者と協力して、さまざまな分野での潜在的なリスクに対するレッドチーミングを行う。例えば、国家安全保障に関連するリスクについては、必要な専門知識の多くが政府機関に存在する。
AIレッドチーミングサービス市場の発展支援: 専門的な AIレッドチーミングサービスの市場を育成し、共通の技術標準に基づいて AIレッドチーミングを実施する組織の認証プロセスを確立する。
第三者によるレッドチーミングの奨励: AI企業が、認定された（将来的には認証された）外部グループによる第三者レッドチーミングを許可し、促進することを奨励する。このために、安全かつセキュアな条件下での透明性とモデルアクセスの基準を策定する。
レッドチーミング実践と明確なポリシーの連携: AI企業が、開発の継続や新しいモデルのリリースを進めるために満たすべき条件に関する明確なポリシー（例: 「責任あるスケーリングポリシー」の採用）にレッドチーミングの実践を結びつけることを奨励する。

さいごに

この記事を読んで、Anthropic がかなりの労力とお金を使ってレッドチーミングをしていることがわかりました。世界中の人が使う生成AIモデルの提供企業としては、それだけの責任を果たす義務があるということなのでしょうね。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up