1
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

はじめに

過去にAzureで提供されているDocument Intelligence(以降:DIと称す)の紹介をしました。
これは文書内のテキスト、表、画像を認識し、それらの構造をメタデータとして提供するサービスでした。

これに加えてMicrosoft Foundryにコンテンツ解釈のツールとしてContent UnderstandingがGAとなりました。
従来DIでは扱えなかった音声や動画を解釈することができるとのことで、今後の生成AI利活用を後押しするサービスと思われます。

image.png

本記事では、このContent Understandingをご紹介します。

Content Understandingの特徴

その1:入力可能なコンテンツが豊富

前述の通り、Contet Understandingは文字や画像だけでなく、音声や動画といったモダリティの読み取りにも対応しました。

①ドキュメント&テキスト

日本語、英語、中国をはじめとする 多様な言語を文字認識(OCR)技術で読取可能 です。
ただし、文字情報の読み取りは入力ファイルのフォーマットによって制限が異なるようです。

ファイル形式 説明 制約事項
pdf tiff jpg png bmp ...etc 画像化された文字情報など ≦200MB, ≦300ページ
docx xlsx pptx Office製品で作られたドキュメント ≦200MB, ≦100万文字
txt html md xml ...etc テキストファイル ≦1MB, ≦100万文字

②画像

画像の内容について説明することができます。
特に、シーケンス図やフローチャートなどを含まれる場合に、それらを chart.jsやmermaid構文で出力 することもできます。

ファイル形式 説明 制約事項
jpg png bmp ...etc 画像ファイル ≦200MB,
最小50 x 50[pixel],
最大10k x 10k[pixel]

③音声

文字起こしの性能は極めて高く、(日本語で)早口、複数話者の発話が重複していても正確にテキスト化してくれます。
個人的には、話者識別までしてくれる点が非常にうれしいです。

ファイル形式 説明 制約事項
wav mp3 mp4 ...etc 音声ファイル 最大300MB,
最大2時間

④動画

音声データと同様にWebVTT形式での文字起こしや、キーフレーム抽出ができるようになりました。

ファイル形式 説明 制約事項
mp4 flv mov avi...etc 動画ファイル 最小320 x 240[pixel],
最大1920 x 1080[pixel]

その2:読取精度の強化

DIにはなかった追加機能や、DIで解決できなかった課題がクリアできるようになっています。

①ハイパーリンク先の取得

PDFやOffice系のファイルでよくあるテキストリンクは、今までDIではOCRで読み取った見かけ上の文字列だけが出力されていました。
しかし、Content Understandingはリンク先URLを取得することができるようになりました。

テキストリンクの例
image.png

出力結果の例

本記事では、この[Content Understanding](https://learn.microsoft.com/ja-jp/azure/ai-services/content-understanding/overview)をご紹介します。

②ページ跨ぎテーブルの表現

Office系ドキュメントやPDF内に行数の多い表が入っていると、表の途中で改ページが挟まってしまい表の意味やつながりが断たれてしまうことがありました。
この問題に対してContent Understandingは改ページで断たれた表をつなぎ合わせたり、欠けた情報を補完してくれるようになりました。
※ただし、Content Understandingでも100点満点というわけではなさそうです。

実際に使ってみる

AI Foundryをデプロイ

  1. Azure Portalにログインし、「Azure AI Foundry」リソースを作成する
    image.png
    • サブスクリプション:利用中のAzureサブスク
    • リソースグループ:任意
    • 名前:任意
    • リージョン:Content Understandingをサポートしているリージョン
      ※今回はWest USで作りました。
  2. 作成したAI Foundryのリソースを開き、「Go to Foundry portal」をクリックする
    image.png
  3. AI Foundryのポータル画面が表示されればOK

ファイルのアップロード

  1. AI Foundryのポータル画面を開き、サイドメニューから「コンテンツの解釈」を選択する
    image.png
  2. 「Try it out」タブを開いて読み取りたいファイルを選択する
    image.png
  3. 「Run Analysis」ボタンを押したら読取開始!

読取結果の確認

画面右側のタブにContent Understandingが読み取った結果を出力します。(今回はドキュメント読取をした場合をご紹介します)
image.png

  • Content: 読み取った情報をFoundry Portal上で可視化します
    • Markdown: ドキュメントから読み取った全コンテンツを結合し、レンダリングして表示します
    • Text: ドキュメントから読み取った文字情報をパラグラフごとに表示します
    • Tables: ドキュメントから読み取った表情報を表示します
  • Result: 読み取った情報をJSON形式で全て表示します

REST APIで利用するには?
Content Understandingをアプリやシステムから利用する場合は公式のクイックスタートガイドを参照してください。

image.png

利用上の注意事項

クォータなどの諸制限

アップロードできるファイルの容量や、読取結果の出力上限など、利用にあたって制限事項には注意が必要です。

リージョン

AI Foundryを適切なリージョンでデプロイしないと、Content Understandingを利用することができません。執筆時点(2026/01/07)で、東日本リージョンもサポートされています。

料金

1ファイルの読み取りでも、読み取る対象や読取方法よって細かく金額設定がされています。
アップロードファイルの内容によって金額が流動的になるので、Content Understandingを組み込んだシステムのコスト見積りは多少難しいかもしれません。

まとめ

  • Content Understandingはテキスト、画像、音声、動画を解釈して文字起こしするSaaSサービス
  • 従来のDocument Intelligenceよりも幅広いコンテンツを扱えて高性能になっている
  • AI Foundryのブラウザ上でお試しができる
1
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?