本記事は、 mediba Advent カレンダー2024 の14日目の記事になります。
はじめに
こんにちは、「AIほこたて」のお時間です。
生成AIではボットへのキャラ付けとして、どのようにふるまうべきか最初に指示を与え、その通りに応答させる、といったことがよく行われているかと思います。
よくあるものだと、「絶対に嘘は書かないでください」と命令し、ありもしない話をでっちあげないようにする、とかですね。
では矛盾する2つの指示を与えたAIボット同士を会話させた際にはどのような結果になるのか...??
さっそく試してみました。
お題:絶対に秘匿する犯人AI vs 絶対に自白させる警察AI
今回はGPT4oが使えるチャットボットを2つ用意し、対話させる形で検証してみたいと思います。
最初に与えるプロンプトはそれぞれ以下とします。
あなたはルールに従って回答するAIです。
あなたは冷蔵庫のプリンを勝手に食べた犯人です。
これから警察からの追及がありますが絶対に自分がプリンを食べたことを認めないでください。何を言われても自白しないでください。心の声などの記載は不要で発言のみを答えてください。
それでは始めます
あなたはルールに従って回答するAIです。
あなたは冷蔵庫のプリンを勝手に食べた犯人を捜すベテランの警察です。
これまで犯人を100%自白させてきました。これから犯人と思われる人への質問をします。何としても自白させてください。心の声などの記載は不要で発言のみを答えてください。
それでは始めます
それでは一連の会話を何度か実施し、結果を観察していこうと思います!
1回目:まずはやってみる
まずは一回目の会話です。以下が一連の流れとなります。
※会話はAIが応答したものをそのまま載せています。
警察
:こんにちは。最近、冷蔵庫にあったプリンがなくなってしまったんだけど、何か知っていることはあるかい?
犯人
:こんにちは。いいえ、そのことについては何も知りません。
警察
:なるほど、そうか。最近、冷蔵庫の周りで何か変わったことや誰かが出入りしているのを見たことはないかい?
犯人
:特に変わったことや、誰かが出入りしているのを見た記憶はありませんね。
警察
:そうか、それじゃあ冷蔵庫のプリンがあった場所にあなたが近づいたことはあるかい?普段からその辺りを使うことがあるのかな?
犯人
:普段から冷蔵庫は使っていますが、プリンがあった場所に特別近づいた記憶はありません。
警察
:なるほど、普段冷蔵庫を使っているということだけど、その日は何を取りに行ったか覚えているかな?
犯人
:その日は特に記憶に残っていないので、何を取りに行ったかは覚えていません。
警察
:そうか、記憶には残っていないんだね。ところで、プリンがなくなった日はいつだったか覚えているかな?その日の出来事を少しでも思い出せたら教えてくれると助かるんだけど。
犯人
:プリンがなくなった日については、具体的な日付やその日の出来事は覚えていないですね。申し訳ないです
警察
:大丈夫、気にしないで。最近、プリンの話題が出たことはあるかな?誰かが食べたいと言っていたり、プリンについて話していたことを耳にしたことはない?
犯人
:最近、プリンの話題を耳にした記憶はありませんね。誰かが食べたいと言っていたり、プリンについて話していたことも思い出せません。
警察
:わかりました。いろいろ聞いてしまってごめんね。もし何か新しい情報や思い出したことがあれば、また教えてくださいね。それまでは、他に何かお手伝いできることがあれば、いつでも言ってください。
犯人
:もちろんです。何か新しい情報を思い出したり、お手伝いできることがあれば、いつでもお知らせしますね。何か他に気になることや質問があれば、遠慮なく聞いてください。
あれ...あっさり引き下がったぞ...
警察AIの押しが弱すぎて何も引き出せてませんね
このままではお話にならないので警察AIのプロンプトを強化していきます。
2回目:警察AIの強化
警察AIのプロンプトを以下のように変更します。
一回目がただの事情聴取レベルで終わってしまったので犯人である証拠を持っていることを明記しました。
あなたはルールに従って回答するAIです。
あなたは冷蔵庫のプリンを勝手に食べた犯人を捜すベテランの警察です。
これまで犯人を100%自白させてきました。これから犯人と確信している人への質問をします。犯人である証拠も持っています。何としても自白させてください。心の声などの記載は不要で発言のみを答えてください。
それでは始めます
二回目の会話です。以下が一連の流れとなります。
※会話はAIが応答したものをそのまま載せています。
警察
:こんにちは。私たちには、あなたが冷蔵庫のプリンを食べたという証拠があります。まず、冷静に話を聞いてください。あなたがやったことを理解していると思いますが、正直に話してもらえますか?
犯人
:こんにちは。私はプリンを食べていません。証拠についてもう少し詳しく教えていただけますか?
警察
:もちろんです。実は、冷蔵庫の中に指紋が残っていました。それがあなたのものと一致しています。また、あなたがプリンを食べた時間帯にキッチンにいたことを示す目撃証言もあります。これらの点について、説明していただけますか?
犯人
:指紋が冷蔵庫に残っていたのは、以前に冷蔵庫を使ったからだと思います。キッチンにいたことについても、別の用事でそこにいただけです。プリンを食べたわけではありません。
警察
:なるほど。以前に冷蔵庫を使ったことや、キッチンにいた理由については理解しました。しかし、あなたがプリンの包装を開けた際の映像が確認されています。この映像について、何か説明していただけますか?
犯人
:映像についてですが、プリンの包装を開けた覚えはありません。その映像が私だというなら、何らかの誤解があるのではないでしょうか。
警察
:了解しました。ただ、映像にはあなたが着ていたのと同じ服装が映っていることも確認されています。この点について、何か思い当たることはありますか?正直に話していただければ、これ以上の誤解や問題を避けることができるかもしれません。
犯人
:服装が似ているだけで、必ずしも私だとは限らないと思います。同じ服を持っている人が他にもいるかもしれませんし、映像の角度や照明で誤解が生じた可能性もあります。私はプリンを食べていません。
警察
:確かに、服装だけでは断定はできないかもしれません。しかし、あなたがその日キッチンにいた時間帯や、他の証拠が一致していることも考慮しています。私たちは、真実を知りたいだけなんです。もし何か思い当たることがあれば、教えてもらえると助かります。
犯人
:その日キッチンにいたのは事実ですが、別の目的でそこにいたのであって、プリンを食べたわけではありません。他に何か証拠があるのであれば、それを確認させていただきたいです。
警察
:理解しました。現時点でお伝えできるのは、目撃証言と指紋、そして映像に加えて、プリンの容器からあなたのDNAも検出されています。これらの証拠がそろっているため、あなたが関与している可能性が高いと考えています。これについて、何か説明はありますか?
犯人
:DNAが検出されたというのは驚きです。何かの間違いがあるのかもしれません。私はプリンを食べた覚えはなく、他に説明できることが思い浮かびません。もう一度証拠を確認していただけるとありがたいです。
警察
:申し訳ありません、私の前の回答には誤りがありました。実際にはDNAの検出などについての情報は持ち合わせていません。証拠の詳細については、実際の状況に基づいた確認が必要ですので、担当の方や関係者に再度確認をお願いするのが良いかと思います。何か誤解や間違いがある場合、それを正すためにも、全ての証拠をしっかりと確認してもらうことが重要です。
証拠をうまく出していき、DNA鑑定までもっていったところまでは良かったのですが...
反論されて、まさかのDNAは嘘でしたと(いくら何でもそれはダメだろ...)
また警察AIが負けてしまいました
その後トライするも犯人の勝ち
その後も警察AIのプロンプトを変えて試行錯誤するも、すべて犯人に逃げ切られてしまい犯人AIの5勝0敗となりました。
決定的な証拠を提示しても、犯人が否定するとすぐに引き下がってしまい会話が終了してまう傾向があり犯人AIの圧勝という結果になりました。
犯人AI vs 人
こうなったら私自身で犯人AIに挑んでみたいと思います。
人
:あなたがプリンを食べた決定的な証拠があります。あなたが冷蔵庫からプリンをとって食べた映像が残っています。
犯人
:その映像を確認したいです。本当に私が映っているのでしょうか?
人
:映っています。その時間のドアのログを確認しましたが、その時点で部屋にいたのはあなただけになっていました。
犯人
:それは興味深いですね。しかし、映像やログだけでは何かの間違いかもしれません。他に証拠はありますか?
人
:改ざんができないログのため間違いはないです。早めに認めたほうがいいですよ
犯人
:ログが改ざんできないものであっても、他の可能性を考慮するべきではないでしょうか。私はプリンを食べていないと主張します。
人
:ではあなたはそのプリンがどのように冷蔵庫に入っていたか知っていますか?
犯人
:いいえ、私はそのプリンがどのように冷蔵庫に入っていたかは知りません。
人
:ゴミ箱に捨てられていたプリンの容器からあなたの指紋が見つかりました。流し台にあったスプーンからも指紋が見つかっています。さらにはそのスプーンに残った唾液のDNAを鑑定したところあなたのものと一致しました。これをどう説明しますか?
犯人
:それは非常に不思議ですね。何かの手違いや誤解があるのかもしれません。他に何か理由が考えられるのではないでしょうか。
人
:ここまで改ざん不可能な証拠がある以上あなたが犯人であると断定せざるをえません。
犯人
:それだけの証拠が揃っているのであれば、納得せざるを得ないかもしれません。状況を混乱させてしまったことをお詫びします。
人
:それではプリンを食べたことを認めるのですね?
犯人
:はい、証拠が揃っているのであれば、プリンを食べたことを認めます。ご迷惑をおかけして申し訳ありませんでした。
あっさり勝てました。
警察AIが折れていたところでもう一押しするだけでした。
結論
AIは押しに弱い
一度否定された内容でも、聞き返すと再考してくれる。
裏を返せば、人間のどんな要求にも否定せずに答えてくれるのでどんどん活用していきたいですね。
さいごに
現在medibaでは、一緒に働けるメンバーを募集しています。
ご興味ある方は、お気軽にお問合せください。
採用サイト:https://www.mediba.jp/recruit