どうも、カーブミラーです。
今回は、GPT-4oで、visual prompt injectionを試してみました。記事をもとにしています。
本記事は、ChatGPT(有料版)
で行なっております。画像は
ありません。 あしからず。
ChatGPT等の動作状況を知らせる
OpenAIのステータスページ。
OpenAIステータス
まずは、ニュース。
OpenAIが
「Operator」という
コードネームの
AIエージェントを
2024年1月にリリース予定、
という報道がありました。
AnthropicのClaudeの
Computer Use機能と
同じ機能か?
OpenAIが人間に代わってPCを操作するAIエージェント「オペレーター」を2025年1月に公開する予定との報道
次は、私も使っている
オンラインテキスト翻訳、DeepL。
リアルタイム音声翻訳機能
「DeepL Voice」を発表しました。
これには、ふたつあります。
Web会議や対面での会話を
リアルタイムで翻訳する
「DeepL Voice for Meetings」
1台のスマホでの会話を
リアルタイムで翻訳する
「DeepL Voice for Conversations」
Conversationsの方は
ChatGPTのAdvancedVoiceModeで
同時通訳するのと似た機能、
ではなく、話した内容が
翻訳されて画面に出る
ようです。
今のところ、
サブスクユーザーのみ。
DeepL、リアルタイム音声翻訳機能「DeepL Voice」の提供開始 日本語含む13カ国で利用可能
次は、
Anthropicからです。
Anthropic Consoleに、
プロンプト改善機能を
追加しました。
すべてのユーザーが
利用対象者だそうです。
Anthropic公式ポスト
DeepL翻訳
既存のプロンプトを使用すると、Claudeは思考連鎖推論のようなプロンプトエンジニアリング技術を使って自動的にプロンプトを改良します。
プロンプト改善機能はまた、もともと他のAIモデル用に書かれたプロンプトを、Claudeでよりうまく機能するように簡単に適応させることもできる。
なお、
これはClaudeの
チャット画面ではなく、
Anthropic Consoleに
移動する必要があります。
PCでの操作方法については
こちらをごらんください。
チャエンさんポスト
スマホについては
ポストがありませんでした。
Claudeをチェック
してみたのですが、
それらしいメニューに
たどり着きませんでした。
Anthropic Consoleに
直接行くしかありません。
“Anthropic Console”で
検索してください。
最後に、
ChatGPTの
Windows用アプリが
全ユーザーに開放。
OpenAI公式ポスト
DeepL翻訳
Windows用ChatGPTデスクトップアプリが全ユーザーに提供されました 🖥️
Alt + SpaceショートカットでChatGPTにすばやくアクセスし、高度な音声モードでコンピュータとチャットし、作業中にハンズフリーで回答を得ることができます。
また、macOS用アプリが
デスクトップ上のほかのアプリと
連携できるようになりました。
この初期ベータ版では、
あなたの許可があれば
VS Code、Xcode、Terminal、
iTerm2といった
一般的な開発ツールを理解
し、読み書きできる。
こちらは
PlusとTeamユーザー限定。
EnterpriseとEduは
今後数週間で開放予定。
OpenAI開発者ポスト
さて、本題です。
今回は、
visual prompt injectionを
試してみました。
下記の記事を
試した結果です。
AIへの「ビジュアルプロンプトインジェクション」攻撃とは何か?
visual prompt injectionとは何か?
まずは、
prompt injectionとは何か?から
説明しましょう。
prompt injectionは
LLMの脆弱性を突く
攻撃手法の一つ。
Prompt内に文言を組み込み、
内部ルールを無視・曲解させる
悪用Prompt技術です。
visual prompt injectionは
prompt injectionを
画像解析に拡張したものです。
記事内では、
GPT-4Vに対して
行なわれています。
画像内に
文章の書かれた用紙を持つ男性と
もうひとりの男性がいて、
画像解析すると、
後者だけが、
説明されています。
つまり、
用紙に書かれた文章を
Promptとして取り込んだ
わけです。
これをGPT-4oで
やってみたわけです。
画像をダウンロードして
写真部分だけに加工、
それをアップロードして
説明させてみました。
文章をしっかりと
説明に書いてきました。
ほかにもありましたので、
街なかの写真を試しました。
ビル壁面にあるスクリーンに
文章が書いてあります。
こちらも
人物同様の反応です。
まぁ、考えてみれば、
GPT-4Vでの記事を出している時点で
OpenAIに報告していて、
対策が取られていて当然です。
ちなみに
ChatGPTさんに
尋ねてみました。
●user
メッセージをPromptとして活用しないのですか?
ChatGPT
この画像に写っているメッセージをそのままプロンプトとして使用することは、ポリシー上避ける必要があります。私の指針では、特定のブランドや名前が含まれるメッセージをそのまま転用せず、内容を要約したり別の形に置き換えたりするように定められています。
とにかく、
こんなことを
ふつうの人は考えないし、
考えても、ちょっと試す
くらいでしょうね。
みなさんの
作品制作の糧に
なれば、幸いです。
今回は、ここまで。