2023/05 頃、OpenAI Embeddings を使えば質問文に意味的に近い文章の引き当てが簡単にできるという話を知りました。6月頃から OpenAI Embeddings + Faiss で my data を使った検索アプリを作り始め、途中で AzureCognitiveSearch の Add your data が出ました。
AzureCognitiveSearch の Add your data参考
しかし、めげずにアプリを作り続けています。自身の整理のために、2023/07 時点のアプリの機能を書いていきます。
なぜ Faiss のままでいくのか
- AzureCognitiveSearch は index 1本あたりの費用がそれなりにかかる
- 料金プラン毎に index が N 本までという料金体系になっている
- 多くの index が必要なアプリでは考慮する必要がある
- ローカル開発する場合にはインデックスがファイルとして出力できるので作って壊すが行いやすい
- マネージドでないものを運用してみてベクトル検索の運用に理解を深めるため
作ったアプリ概要
- 質問に対してmy data を考慮した回答を口語で得られる(一問一答)
- my data を考慮した会話ができる
- my data (document) を登録・削除できる
- 各種 OpenAI API の利用費用が分かる
2023/07 時点で作ってみた機能
- txt, PDFファイルをアップロードしてベクトル検索インデックスを作れる
- アップロードしたドキュメントの一覧表示と削除機能
- 質問に対してmy data を考慮した回答を口語で得られる(一問一答)
- my data を考慮した会話ができる
- ドキュメントアップロード時、一問一答時に tiktoken による概算費用算出とログ機能
以上です。
宣伝
今後も OpenAI を使ったアプリ開発に関してレポートしていきます。励みになるので良かったらフォロー、いいね
をお願い致します。





