Azure AI Seacrhについて
ワークフロー
1.データをAzure AI Searchにインデックスとして登録する
検索対象となるデータを取り込み、検索に適した形へ変換する工程。
まず、検索対象となるデータをAzure上のストレージ、データベースに保管する。
次に、インデクサを設定することで、azure ai searchが自動的にファイルをクロールして検索用のインデックスを登録する。
インデックス登録の過程で、コグニティブスキルを組み合わせたスキルセットを適用しOCR、テキスト分割などの前処理を実行する。その結果、本文フィールド、ベクトルフィールドなど検索で用いる情報が整備されたインデックスが生成される。
Document Inteligenceとの組み合わせについて
Document InteligenceとはAzure Open AIに含まれるpdfや画像データから、テキスト、表、文章構造を抽出できるサービス。
Azure AI SearchのOCRスキルでは、テキストや表を単純に文字列として抽出するのに対してDocument intelligenceは、文字認識に加え表、段落、見出し、など文章の構造を保持して認識できるOCRスキルの強化版。
Azure AI Searchのカスタムスキルとして、Document Intelligenceを呼び出すことができる。
扱えるデータ量とコスト
Standard S1、S2、S3 間など、同じファミリー内であれば、運用中でも価格レベルは変更可能。
ファミリーをまたぐ変更の場合は新規リソースを作成してデータ移行が必要。
https://learn.microsoft.com/en-us/azure/search/search-sku-tier

運用
Azure AI Search のインデクサは、新規ファイルの追加・既存ファイルの変更・削除といったイベントに応じて、次のような運用方法で実行できます。
手動実行
必要に応じて管理者がポータルやAPIから即時にインデクサを実行。
急ぎで変更を反映したい場合に有効。
定期スケジュール実行
インデクサにスケジュールを設定し、最小5分~最大24時間間隔で自動実行。
日常的な差分取り込みを自動化できる。
イベント駆動実行
Blob Storage などで新しいファイルの追加や更新を検知し、Event Grid → Function / Logic Apps などを経由してインデクサを起動。
ほぼリアルタイムでの更新反映が可能。
これらの方法は組み合わせて運用することもできます。
例:普段は「定期スケジュール」で自動取り込み、必要なときに「手動実行」で即時反映。
または、重要な更新は「イベント駆動」で即反映し、バックアップとして「スケジュール」で定期確認。
カスタムスキル
Azure AI Searchに用意されているコグニティブスキルに加え任意の処理を実装してスキルとして設定できる。標準スキルではカバーできない会社独自のルールに則った処理などを実装できる。
ユースケース
・自社独自のワード、番号のエンティティを抽出する
・表をMarkdownやCSVに変換する
・OCR以外の画像分類などの画像処理