はじめに
過去にAzureで提供されているDocument Intelligence(以降:DIと称す)の紹介をしました。
これは文書内のテキスト、表、画像を認識し、それらの構造をメタデータとして提供するサービスでした。
これに加えてMicrosoft Foundryにコンテンツ解釈のツールとしてContent UnderstandingがGAとなりました。
従来DIでは扱えなかった音声や動画を解釈することができるとのことで、今後の生成AI利活用を後押しするサービスと思われます。
本記事では、このContent Understandingをご紹介します。
Content Understandingの特徴
その1:入力可能なコンテンツが豊富
前述の通り、Contet Understandingは文字や画像だけでなく、音声や動画といったモダリティの読み取りにも対応しました。
①ドキュメント&テキスト
日本語、英語、中国をはじめとする 多様な言語を文字認識(OCR)技術で読取可能 です。
ただし、文字情報の読み取りは入力ファイルのフォーマットによって制限が異なるようです。
| ファイル形式 | 説明 | 制約事項 |
|---|---|---|
pdf tiff jpg png bmp ...etc |
画像化された文字情報など | ≦200MB, ≦300ページ |
docx xlsx pptx
|
Office製品で作られたドキュメント | ≦200MB, ≦100万文字 |
txt html md xml ...etc |
テキストファイル | ≦1MB, ≦100万文字 |
②画像
画像の内容について説明することができます。
特に、シーケンス図やフローチャートなどを含まれる場合に、それらを chart.jsやmermaid構文で出力 することもできます。
| ファイル形式 | 説明 | 制約事項 |
|---|---|---|
jpg png bmp ...etc |
画像ファイル | ≦200MB, 最小50 x 50[pixel], 最大10k x 10k[pixel] |
③音声
文字起こしの性能は極めて高く、(日本語で)早口、複数話者の発話が重複していても正確にテキスト化してくれます。
個人的には、話者識別までしてくれる点が非常にうれしいです。
| ファイル形式 | 説明 | 制約事項 |
|---|---|---|
wav mp3 mp4 ...etc |
音声ファイル | 最大300MB, 最大2時間 |
④動画
音声データと同様にWebVTT形式での文字起こしや、キーフレーム抽出ができるようになりました。
| ファイル形式 | 説明 | 制約事項 |
|---|---|---|
mp4 flv mov avi...etc |
動画ファイル | 最小320 x 240[pixel], 最大1920 x 1080[pixel] |
その2:読取精度の強化
DIにはなかった追加機能や、DIで解決できなかった課題がクリアできるようになっています。
①ハイパーリンク先の取得
PDFやOffice系のファイルでよくあるテキストリンクは、今までDIではOCRで読み取った見かけ上の文字列だけが出力されていました。
しかし、Content Understandingはリンク先URLを取得することができるようになりました。
出力結果の例
本記事では、この[Content Understanding](https://learn.microsoft.com/ja-jp/azure/ai-services/content-understanding/overview)をご紹介します。
②ページ跨ぎテーブルの表現
Office系ドキュメントやPDF内に行数の多い表が入っていると、表の途中で改ページが挟まってしまい表の意味やつながりが断たれてしまうことがありました。
この問題に対してContent Understandingは改ページで断たれた表をつなぎ合わせたり、欠けた情報を補完してくれるようになりました。
※ただし、Content Understandingでも100点満点というわけではなさそうです。
実際に使ってみる
AI Foundryをデプロイ
- Azure Portalにログインし、「Azure AI Foundry」リソースを作成する
- サブスクリプション:利用中のAzureサブスク
- リソースグループ:任意
- 名前:任意
- リージョン:Content Understandingをサポートしているリージョン
※今回はWest USで作りました。
- 作成したAI Foundryのリソースを開き、「Go to Foundry portal」をクリックする
- AI Foundryのポータル画面が表示されればOK
ファイルのアップロード
- AI Foundryのポータル画面を開き、サイドメニューから「コンテンツの解釈」を選択する
- 「Try it out」タブを開いて読み取りたいファイルを選択する
- 「Run Analysis」ボタンを押したら読取開始!
読取結果の確認
画面右側のタブにContent Understandingが読み取った結果を出力します。(今回はドキュメント読取をした場合をご紹介します)

-
Content: 読み取った情報をFoundry Portal上で可視化します
- Markdown: ドキュメントから読み取った全コンテンツを結合し、レンダリングして表示します
- Text: ドキュメントから読み取った文字情報をパラグラフごとに表示します
- Tables: ドキュメントから読み取った表情報を表示します
- Result: 読み取った情報をJSON形式で全て表示します
REST APIで利用するには?
Content Understandingをアプリやシステムから利用する場合は公式のクイックスタートガイドを参照してください。
利用上の注意事項
クォータなどの諸制限
アップロードできるファイルの容量や、読取結果の出力上限など、利用にあたって制限事項には注意が必要です。
リージョン
AI Foundryを適切なリージョンでデプロイしないと、Content Understandingを利用することができません。執筆時点(2026/01/07)で、東日本リージョンもサポートされています。
料金
1ファイルの読み取りでも、読み取る対象や読取方法よって細かく金額設定がされています。
アップロードファイルの内容によって金額が流動的になるので、Content Understandingを組み込んだシステムのコスト見積りは多少難しいかもしれません。
まとめ
- Content Understandingはテキスト、画像、音声、動画を解釈して文字起こしするSaaSサービス
- 従来のDocument Intelligenceよりも幅広いコンテンツを扱えて高性能になっている
- AI Foundryのブラウザ上でお試しができる


