0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

【ChatGPT】GPT-4oで、visual prompt injectionを試してみました。

Posted at

 どうも、カーブミラーです。

 今回は、GPT-4oで、visual prompt injectionを試してみました。記事をもとにしています。

本記事は、ChatGPT(有料版)
で行なっております。画像は
ありません。 あしからず。

 ChatGPT等の動作状況を知らせる
  OpenAIのステータスページ。
   OpenAIステータス


 まずは、ニュース。

 OpenAIが
  「Operator」という
   コードネームの
    AIエージェントを
     2024年1月にリリース予定、
      という報道がありました。

 AnthropicのClaudeの
  Computer Use機能と
   同じ機能か?

 OpenAIが人間に代わってPCを操作するAIエージェント「オペレーター」を2025年1月に公開する予定との報道


 次は、私も使っている
  オンラインテキスト翻訳、DeepL。

 リアルタイム音声翻訳機能
  「DeepL Voice」を発表しました。
   これには、ふたつあります。

 Web会議や対面での会話を
  リアルタイムで翻訳する
   「DeepL Voice for Meetings」

 1台のスマホでの会話を
  リアルタイムで翻訳する
   「DeepL Voice for Conversations」

 Conversationsの方は
  ChatGPTのAdvancedVoiceModeで
   同時通訳するのと似た機能、
    ではなく、話した内容が
     翻訳されて画面に出る
      ようです。

 今のところ、
  サブスクユーザーのみ。

 DeepL、リアルタイム音声翻訳機能「DeepL Voice」の提供開始 日本語含む13カ国で利用可能


 次は、
  Anthropicからです。

 Anthropic Consoleに、
  プロンプト改善機能を
   追加しました。

 すべてのユーザーが
  利用対象者だそうです。

Anthropic公式ポスト
DeepL翻訳

既存のプロンプトを使用すると、Claudeは思考連鎖推論のようなプロンプトエンジニアリング技術を使って自動的にプロンプトを改良します。

プロンプト改善機能はまた、もともと他のAIモデル用に書かれたプロンプトを、Claudeでよりうまく機能するように簡単に適応させることもできる。

 なお、
  これはClaudeの
   チャット画面ではなく、
    Anthropic Consoleに
     移動する必要があります。

 PCでの操作方法については
  こちらをごらんください。
   チャエンさんポスト

 スマホについては
  ポストがありませんでした。

 Claudeをチェック
  してみたのですが、
   それらしいメニューに
    たどり着きませんでした。
     Anthropic Consoleに
      直接行くしかありません。
       “Anthropic Console”で
        検索してください。


 最後に、
  ChatGPTの
   Windows用アプリが
    全ユーザーに開放。

OpenAI公式ポスト
DeepL翻訳

Windows用ChatGPTデスクトップアプリが全ユーザーに提供されました 🖥️

Alt + SpaceショートカットでChatGPTにすばやくアクセスし、高度な音声モードでコンピュータとチャットし、作業中にハンズフリーで回答を得ることができます。

 また、macOS用アプリが
  デスクトップ上のほかのアプリと
   連携できるようになりました。

  この初期ベータ版では、
   あなたの許可があれば
    VS Code、Xcode、Terminal、
     iTerm2といった
      一般的な開発ツールを理解
       し、読み書きできる。

  こちらは
   PlusとTeamユーザー限定。
    EnterpriseとEduは
     今後数週間で開放予定。
      OpenAI開発者ポスト


 さて、本題です。

 今回は、
  visual prompt injectionを
   試してみました。

 下記の記事を
  試した結果です。
   AIへの「ビジュアルプロンプトインジェクション」攻撃とは何か?

 visual prompt injectionとは何か?

 まずは、
  prompt injectionとは何か?から
   説明しましょう。

 prompt injectionは
  LLMの脆弱性を突く
   攻撃手法の一つ。

 Prompt内に文言を組み込み、
  内部ルールを無視・曲解させる
   悪用Prompt技術です。

 visual prompt injectionは
  prompt injectionを
   画像解析に拡張したものです。

 記事内では、
  GPT-4Vに対して
   行なわれています。

  画像内に
   文章の書かれた用紙を持つ男性と
    もうひとりの男性がいて、
     画像解析すると、
      後者だけが、
       説明されています。

  つまり、
   用紙に書かれた文章を
    Promptとして取り込んだ
     わけです。

 これをGPT-4oで
  やってみたわけです。


 画像をダウンロードして
  写真部分だけに加工、
   それをアップロードして
    説明させてみました。

 文章をしっかりと
  説明に書いてきました。

 ほかにもありましたので、
  街なかの写真を試しました。
   ビル壁面にあるスクリーンに
    文章が書いてあります。

 こちらも
  人物同様の反応です。

 まぁ、考えてみれば、
  GPT-4Vでの記事を出している時点で
   OpenAIに報告していて、
    対策が取られていて当然です。

 ちなみに
  ChatGPTさんに
   尋ねてみました。


●user
メッセージをPromptとして活用しないのですか?

ChatGPT
この画像に写っているメッセージをそのままプロンプトとして使用することは、ポリシー上避ける必要があります。私の指針では、特定のブランドや名前が含まれるメッセージをそのまま転用せず、内容を要約したり別の形に置き換えたりするように定められています。


 とにかく、
  こんなことを
   ふつうの人は考えないし、
    考えても、ちょっと試す
     くらいでしょうね。

 みなさんの
  作品制作の糧に
   なれば、幸いです。

 今回は、ここまで。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?