はじめに
- ノーコードプラットフォームDifyとAIツールOpenAIの連携を試してみました。
- この記事では、DifyとGPT-4oの統合手順と開発者にとっての利点を詳しく探ります。
- Difyはバージョン0.6.8以降でGPT-4oに対応しています。
OpenAIとは
OpenAIは、先進的な人工知能技術を提供する企業であり、特にGPT-4などの強力な言語モデルで知られています。これらのモデルは多様なタスクに対応し、高度な自然言語処理を実現します。
Difyとは
DifyはオープンソースのLLMアプリ開発プラットフォームです。RAGエンジンを使用して、エージェントから複雑なAIワークフローまでLLMアプリを編成します。
前提の環境の説明
- OS: Windows 11
- OpenAI APIキーを取得して利用する
- DifyはDocker Desktopを使用して環境を構築する
導入のプロセス
OpenAIのセットアップ
- OpenAIの公式サイトからAPIキーを取得します。
- APIキーは後でDifyの設定で必要になります。APIは使ったぶんだけ使用料はかかるので、学ばせるドキュメント量、チャットするときのデータ量などは気をつけてください。
DifyのDockerのインストール
- 公式サイトの手順にそってDocker Composeを使用してインストールします。
https://docs.dify.ai/getting-started/install-self-hosted/docker-compose - 複数のコンテナが起動します。
OpenAIとDifyの連携のプロセス
-
DifyのWebサイト[http://localhost/apps]にアクセスする。初回は管理者アカウントの登録してログインする。
モデルプロバイダーの右上のシステム設定の画面を表示する。
埋め込みモデル、音声toテキスト、テキストto音声などもデフォルトのものを使ってみる。
再ランクモデルなどは、cohere社のAPIを使えばモデルが選択できそう。
ナレッジの登録
- チャットボットに学習させいたファイルの情報をナレッジとして登録する。ナレッジのページを開く。
- 知識を作成をクリックする。
- 登録したいテキストファイルをドラッグして登録する。次へをクリックする。
- 保存して処理をクリックして、ドキュメントが登録されるのを待つ。
- ナレッジを登録したあとにコンテキストの追加ボタンをクリックする。
- 登録したい知識を選択して、追加ボタンをクリックする。
チャットボットを検証する
-
アプリのアイコンと名前を定義して、作成するをクリックする。
-
次のような画面でアプリの定義をする。右上でまずは、モデルを選択する。
-
コンテキストには先程登録したナレッジを登録する。
チャットボットを検証する
Start Chatをクリックして、チャットを開始する。
回答のソースもとも示してくれた。
プレイボタンを押すと、文字を読んでくれる
画像を入力すると、それもふくめて質問できる。
マイクボタンで音声入力もできるが、これはWindows 11の音声入力でいいかな・・・。
まとめ
- Difyの利用: 数十分のノーコード開発により、gpt4-oと連携するシンプルなRAGチャットボットを構築できました。
- モデルプロバイダーで「セットアップ」の設定で使用可能なモデルを一括で登録できました。
- テキストエンベディング、音声からテキストへの変換(音声toテキスト)、テキストから音声への変換(テキストto音声)なども指定できました。
コメント
すでにGTP4-oで試されている記事などありますが、モデルプロバイダーで使用可能なモデルを一括で登録できたり、テキストエンベディングの活用をフォーカスして書いてみました。