LoginSignup
44
34

Azure AI Search(旧: Cognitive Search)のチャンク分割+ベクトル化が簡単になったので試す!(2/2)

Last updated at Posted at 2023-12-01

はじめに

前回ではAzure AI Searchのチャンク分割+ベクトル化のやり方について解説しました。

この方法では言語アナライザーがデフォルト(英語)になってしまうので、フルテキスト検索の精度が悪くなってしまいます。今回は言語アナライザーを日本語にする方法について解説していきます。

やり方

インデックスを作る部分は前回の記事をご参照ください。今回はこちらの作成済みのインデックスを使います。
image.png

JSONの編集をクリックし、メモ帳などにコピーします。
image.png

image.png

既存のインデックスは一度削除します。
image.png

インデックスの追加(JSON)をクリックします。
image.png

先ほどメモ帳にコピーしたJSON形式のインデックスを貼り付けます。
image.png

赤く警告されている行は不要なので消します。
image.png

テキストが格納されている「chunk」フィールドのアナライザーを「null」->「ja.lucene」に変更します。

image.png

同様にタイトルが格納されている「title」フィールドのアナライザーも「null」->「ja.lucene」に変更します。
image.png

こちら赤の警告も不要なので削除します。
image.png

(2024年6月3日追記)「vectorizers->azureOpenAIParameters->apiKey」のフィールドが「redacted」とかかれており、マスキングされています。この状態で保存すると、検索時にAOAIへのリクエストで401(Unauthorized)のエラーが発生します。
image.png

AOAIのリソースからキーを取得し、apiKeyの部分を変更しましょう。
image.png
image.png

赤の警告が削除されると「保存」ボタンがクリック出来るようになります。

image.png

(追記)次にスキルセットのテキスト分割部分の言語を日本語に変更します。
スキルセットから作成されたスキルを選択してください。

image.png

「Microsoft.Skills.Text.SplitSkill」スキルの「defaultLanguageCode」が「en」になっていると思うので、「ja」に変更してください。チャンクサイズは「maximumPageLength」オーバーラップは「pageOverlapLength」で指定可能です。

image.png

次にインデクサーから作成したインデクサーをクリックします。
image.png

「リセット」をクリックします。
image.png

リセットされたら「実行」をクリックします。
image.png

インデックスの作成が完了したら、インデックスの画面で実際に上手くレコードが表示されるか確認します。
image.png

ちゃんと日本語のアナライザーであることが確認できました。
image.png

まとめ

今回は「チャンク分割+ベクトル化機能」で言語アナライザーを日本語に修正する方法について解説しました。インデクサーが作成されている場合は、インデックスのスキーマをいくらでも作り直すことが可能なので便利ですね。是非お試しください!

44
34
8

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
44
34