AI生成かどうかを判定する「Hive Moderation AI-GENERATED CONTENT DETECTION」にDALL·E 3やFLUX.1、ImageFX等の生成画像を判定させてみた

Posted at 2024-09-23

Supershipの名畑です。らんま1/2、放送も近づいてきて、新PVも公開されて、テンションが上がってきました。やっぱりシャンプーは最高。猫飯店メニュー・ソングを人生でどれだけ聴いただろう。

はじめに

約1年前に「画像がAI生成か否かを判定するWebサービス「AI or Not」と「AI-GENERATED CONTENT DETECTION」にAI生成した画像群を読み込ませてみたという記事を書きました。
以下2つのAIであるか判定するツールにAI生成した画像群を判定させるという内容でした。

HiveによるHive Moderation AI-GENERATED CONTENT DETECTIONの方が当時の検出率は高かったです。

あれから1年経ちましたので、再度、AI生成した画像をAI判定ツールにかけてみたというのが今回の記事となります。

ただし、前回と趣向を変えて

AI画像生成に使うツールそのものを複数用意する
判定にはHive Moderation AI-GENERATED CONTENT DETECTIONのみを用いる

としています。

前提

生成AIの分野ではコンテンツ認証情報(Content Credentials)というものが普及し始めています。

生成 AI モデルによるコンテンツの品質が向上するにつれ、AI が生成したコンテンツの起源に関する透明性の必要も高まっています。 Azure OpenAI Service を使用して AI 生成したすべての画像に、コンテンツの起源と履歴を開示するための改ざん防止の手法であるコンテンツ認証情報が含まれるようになりました。コンテンツ資格情報は、共同開発財団プロジェクトである Coalition for Content Provenance and Authenticity (C2PA) のオープンな技術仕様に基づいています。

参考：Azure OpenAI のコンテンツ資格情報 - Azure OpenAI | Microsoft Learn

今回使用した画像にもこのコンテンツ認証情報が含まれるものがいくつかあるのですが、判定結果がイコールとはならないケースが多かったです。
たとえば、AdobeのFireflyにてWeb上で生成した画像はコンテンツ認証情報が含まれますが、それでもAI生成の確率は低いと判定されました。

そのため、本記事ではコンテンツ認証情報については触れずに進めています。

また、今回の記事ではそれぞれの画像生成ツール毎に2枚〜3枚の画像しか掲載していませんが、実際にはもう少し多くの枚数で試しており、ただし傾向としては同様でしたので抜粋としています。

DALL·E 3

まずはOpenAIによるDALL·E 3の画像をいくつか判定にかけてみました。ChatGPTにプロンプトを投げて生成したものです。

ラベリングは正しくないものもありますが、どれも99%以上の高スコアでAIと判定されました。正解です。

まあ、見るからにAI絵ですよね。

余談ですが、最近「この絵ってAIっぽいよね」みたいな言葉をよく聞くようになりましたが、人間はなにをもってそれをAIっぽいと判断しているのでしょうね。

FLUX.1[dev]

次はBlack Forest Labsによる FLUX.1[dev] で生成した画像を判定にかけてみました。画像は過去記事「Stable Diffusionのオリジナル開発陣が発表した画像生成AIモデルFLUX.1([dev]/[schnell])をMacBook(M2)で動かしてみた」で生成したものです。

はい、こちらも99%以上の高確率でAIと判定されました。

ImageFX

そのリアリティでかなり話題になっているGoogleのImageFXで生成した画像でも試してみます。

一枚目は90%を切りましたが、やはり高確率でAIと判定されました。

余談ですが、人物写真の品質は、話題になるだけあって本当にすごい。
私の目ではもうAIだと言われても疑ってしまうレベルです。

Stable Diffusion

次はStability AIのStable Diffusionです。画像は過去記事「スペリング能力が向上したStable Diffusion 3で文字を含む画像を生成してみた(DALL·E 3との比較もしてみた)」で生成したものです。

やはり同じく、AIと判定されました。

Image to Imageでやってみる

ここまですべて99%以上の確率でのAIと判定されたため、さらに趣向を変えてみようと思います。

画像生成では元画像を指定することが可能です。いわゆるImage to Imageです。
つまり、元の画像をAIで加工していく。
そうやって生成した画像を判定にかけてみようと思います。

まず、私が某所で撮影した写真が以下です。容量が重いので縮小しています。

この写真に対して同じくStable Diffusion 3 Largeを用いてimage to imageで「Night view of buildings」というプロンプトを投げてみます。
その際にプロンプトをどれだけ反映するかを0.0〜1.0の数値で指定できます。1.0に近づくほどに元画像から遠ざかります。
この数値を段階的に変えつつ画像を生成し、それぞれを判定にかけてみます。