概要
- インテルラボの研究チーム Trusted Media は、アーティストやコンテンツ所有者のデータが生成 AI アプリに利用されないように保護する、複数のプロジェクトに取り組み中。
- AI アート保護ツールは、コンテンツ所有者のデータが拡散モデルに利用されないように防御。
- また、生成モデルによる音声の誤用 / 乱用を防ぐ、別の AI 音声保護ツールも開発。
生成 AI の利用が広がり、一般に公開されているインターフェイスを通じて誰もがリアルなコンテンツを生成できるようになりました。特に条件付き画像生成では、高品質のコンテンツを低コストで生成できる拡散モデルによって、収益化や経済活動に結びつける「クリエーター・エコノミー」に変化が起きています。しかし、これらのクリエイティブな技術は、大規模生成モデルに作品を利用、拡散、偽装されるアーティストの犠牲の上に成り立っており、オリジナルを創出したアーティストには支払いもなく、原作者として明示されることもありません。
インテルラボの研究チーム Trusted Media は、ユーザーのデータや音声が生成 AI アプリに利用されないように保護する、複数のイニシアチブに取り組んでいます。インテルラボと外部の協力者による共同研究のもと、AI ベースの画像生成合成アプリケーションでの不正利用を防ぐことでアーティストの画像データの所有権を保護する AI アート保護ツールは開発されました。また、AI 音声保護ツールは、AI によって操作やクローンされないように音声データを守ります。アート保護ツールは、画像の「保護された」バージョンを敵対的生成することで、拡散モデルを「妨害」する仕組みです。音声保護ツールは、微細な変更を加える敵対的生成アプローチによって、「保護された」バージョンの音声クリップ生成を学習し、音声クローンが模倣できないようにします。
アーティストとクリエイティブ・データの保護
規制や政策はまだ著作者の権利を保護できるほど十分には成熟していないため、アート保護ツールがその役割を担い、ツールの敵対的保護によってアーティストやコンテンツ所有者はデータを守り、オンラインにある著作権保護された画像が拡散モデルに不正利用されないように防ぐことができます。このクロスドメイン保護ツールは、パーソナライズやスタイル変換、条件付き画像の変換といった、拡散モデルによる多くのタスクを妨害するのに最適です。人間の目には分からない、オリジナルとはわずかに異なるバージョンの画像が拡散モデルに入力されると、モデルが出力するのは破損した画像になります (図 1)。

図 1. アート保護ツールの目的は、拡散モデルを妨害して、さまざまなタスクで出力を劣化させること。
研究チームではこの問題を、入力と出力のペアのみが知られている状態での、ブラックボックス拡散モデルへの敵対的攻撃と捉えています。このツールの目的は、入力された画像と保護された画像の知覚的類似性を維持しながら、拡散モデルが出力する画像の構造や生成結果を劣化させることです。
アーティストがコントロールできる設計になっており、保護された画像の忠実性と耐性のバランスをアーティストが調整できるように、バランス変数を公開しています。
この生成プロセスの学習に、ツールではシンプルな U-Net アーキテクチャーを採用しました。畳み込み層とそれに続くアップ / ダウン・サンプリングから成るブロックで構成されています (図 2)。

図 2. アート保護ツールの入力 / 出力、生成アーキテクチャーの損失式。
ツールを重要な保護手段として適用できるユースケースは数多くあり、例えば、画風の侵害 (図 3)、ディープフェイク、ID の悪用、インペインティングのような画像関連の改ざんからの保護などが考えられます。
音声の保護
画像の保護と同様に、インテルラボの Trusted Media チームは新しい AI 音声保護ツールも開発しています。これは、音声シグネチャーが生成 AI によって複製されるのを防ぎ、誰もが自分の声をコントロール下に置くことができるようにする取り組みです。ツールは、元の音声にできるだけ似せつつ、音声クローンの品質を最大限まで低下させるような敵対的サンプルの生成を学習します。
音声クローンを生成する最新の手法には、音源分離、ボコーダー、シンセサイザー、ピッチ抽出、エンコーダーなどの共通モジュールがあり、これらのモジュールを個別に攻撃することでもパフォーマンスを低下させることはできますが、中には入力に組み込まれた敵対的変更を打ち消してしまうものもあります。そのため、この保護ツールは、コンポーネントに依存せず、音声クローン生成システムをエンドツーエンドで攻撃するように設計しました。また、どのような攻撃対象モデルにも柔軟に対応できる、プラグ & プレイ型 U-Net モデルとして構築されています (図 4)。

図 4. 全体像。(左) 音声保護ツールがない場合、攻撃モデルはスピーカー埋め込みで音声を模倣する。ツールが音声を保護している場合、攻撃モデルはひずみのある音声を生成する。(中) ツールのアーキテクチャーを視覚化した図。入力 (黒)、変換された入力 (スピーカー付きの黒)、保護された音声 (緑)、破損した音声 (赤) それぞれの動き。(右) 損失項とシステム全体の関係。
ツールの学習には、再構築損失、知覚損失、歪み損失、意見損失といった複数の要素からなる、多目的損失関数を使用します。これらの目的は、保護された音声の元の音声に対する忠実性を保ちつつ、合成された保護済みの出力品質を最大限に低下させるよう、連携して機能します。
このような保護ツールは、話し声や歌声のクローン生成を防ぎ、重要な音声 / ID を保護するうえで不可欠です。
元記事
著者: Anthony Rhodes
所属: インテル
公開日: 2025年2月9日
Anthony Rhodes はインテルラボのリサーチ・サイエンティストです。ユーザーに対する信頼性と説明責任の担保を目的とした AI アルゴリズムを開発しています。

