【Dify】OCI Generative AI プラグインが画像入力/VQAに対応しました！

Last updated at 2025-07-31Posted at 2025-07-13

はじめに

Difyでは、OpenAI・Google・Anthropic・Metaなど、さまざまなLLM（大規模言語モデル）を選択して利用できます。
その中でも、Oracle Cloud Infrastructure（OCI） の Generative AIサービスで提供されるLLMを利用するための「OCI Generative AI」プラグインも公式で提供されています。
このプラグインに、画像（Vision）入力のサポート が加わりました！

今回は、Dify 公式プラグインにPRして承認された OCI Generative AI プラグインの画像入力対応バージョンアップについて紹介します。

OCI Gen AI LLMモデルがVisinon（画像入力）に対応！

背景：

以前の OCI Generative AI プラグインでは、テキストプロンプトのみを送信することが可能でした。そのため、画像や写真を解釈するようなユースケースには対応できませんでした。

今回のアップデートでできるようになったこと：

画像とテキストの両方をプロンプトに含めて送信可能に
Vision対応モデルの力を活かして、画像を含むプロンプトへの回答が得られるように！（VQA：Visual Question Answering）

今回承認されたPR：

修正内容など詳細はこちらをご確認ください！

Dify公式プラグインにアップデートリクエストをして承認されるまでの手順は、以前新しいモデル追加の時に投稿したこちらの記事をご参考ください！

利用可能なLLMモデル

今回のアップデートで、以下のOCIモデルが画像入力（Vision）対応となりました：

meta.llama-3.2-90b-vision-instruct
meta.llama-4-maverick-17b-128e-instruct-fp8
meta.llama-4-scout-17b-16e-instruct

Difyでは、これらのモデル名の横に「👁 VISION」アイコンが表示されます。

Vision（画像入力）の使い方

● チャットボットで使う場合

1 . チャットボット作成時に、Vision対応モデル（👁アイコン付き）を選択

2 . Vision（画像入力）に対応しているモデルを選択すると、オーケストレーション設定に「ビジョン」（画像入力を許可するか）のパラメータが出てくるので、これを有効化

3 . 画像をドラッグ＆ドロップ、もしくは送信ボタン左のファイルアイコンからアップロードすれば、画像＋テキストのプロンプトが遅れます！

● ワークフローで使う場合

チャットボットと同様にVision対応モデルを選択し、画像入力を有効化後、入力された画像の変数をLLMに指定することでLLMが画像を処理できます。

おわりに

今回の対応により、OCI Generative AI プラグインはユースケースが広がりました。

ぜひこのアップデートを活用して、OCI LLM×画像×AIのマルチモーダル活用を進めてみてください！

参考

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up