こちらのアップデートです。
ai_parse_documentによるドキュメントの解析(Beta)
AI関数のai_parse_document()
は非構造化の文書から構造化されたコンテンツを抽出するために、Databricks基盤モデルAPIから最先端の生成AIモデルを呼び出します。この関数はβで利用できます。ai_parse_document functionをご覧ください。
注意
執筆時点ではベータ版であり、日本リージョンでは利用できません。
Databricksが提供するai_parse_document関数は、PDFや画像ファイルなどの非構造化ドキュメントから、AIを使って構造化されたデータを自動抽出する機能です。ページ番号、ヘッダー、フッター、本文、表などの要素を認識し、Markdown形式で出力します。この機能により、大量のドキュメント処理が必要な業務において、手作業でのデータ入力や解析作業を大幅に削減できます。現在ベータ版として提供されており、一部のリージョンで利用可能です。
機能概要
ai_parse_document関数は、Databricks Foundation Model APIsの最先端生成AIモデル(Llamaファミリー)を活用して、非構造化ドキュメントから構造化コンテンツを抽出する関数です。
対応ファイル形式
現在サポートされているファイル形式は以下の通りです:
- JPG / JPEG
- PNG
出力スキーマの構成
関数の出力はVARIANT型で、以下の構造を持っています:
フィールド | 説明 |
---|---|
document.pages | ページごとの情報(ページ番号、ヘッダー、フッター、コンテンツ) |
document.elements | ドキュメント内の要素(テキスト、表、図)の詳細情報 |
corrupted_data | 形式不正なレスポンスがある場合の情報 |
error_status | エラーが発生した場合の詳細メッセージ |
metadata | 出力スキーマのバージョンとバックエンドID |
メリット、嬉しさ
1. 作業効率の大幅な向上
手動でPDFから情報を抽出する作業が不要になり、数時間かかっていた作業が数分で完了します。
2. 高精度な構造認識
AIモデルが文書の構造を理解し、以下の要素を正確に識別します:
- ページ番号とヘッダー/フッター
- 段落テキスト
- 表データ
- 図表
3. シームレスなデータ統合
抽出されたデータはMarkdown形式で出力されるため、後続のデータ処理や分析に容易に活用できます。
4. スケーラブルな処理
Databricksのインフラを活用して、大量のドキュメントを並列処理できます。
前提条件
- リージョン要件: us-east-1またはus-west-2のワークスペース
- 機能の有効化: Mosaic AI Agent Bricks Betaを有効化
- ランタイム要件: Databricks Runtime 16.4 LTS以降
ウォークスルー
ChatGPTに作ってもらったこちらの架空の請求書のPNGファイルを使います。ボリュームにアップロードしておきます。
あとは、パスを指定してai_parse_document()
関数を呼び出すだけです。
-- PDFファイルから情報を抽出
SELECT
path,
ai_parse_document(content)
FROM READ_FILES('/Volumes/users/takaaki_yayoi/data/invoice.png', format => 'binaryFile');
画像からテキストが抽出されました!
特定のフィールドを取得します。
WITH corpus AS (
SELECT
path,
ai_parse_document(content) AS parsed
FROM
READ_FILES('/Volumes/users/takaaki_yayoi/data/invoice.png', format => 'binaryFile')
)
SELECT
path,
parsed:document:pages, -- ページ情報
parsed:document:elements, -- 要素情報
parsed:corrupted_data, -- 破損データ
parsed:error_status, -- エラー状態
parsed:metadata -- メタデータ
FROM corpus;
まとめ
ai_parse_document関数は、PDFや画像ファイルからの情報抽出を自動化し、ドキュメント処理の効率を飛躍的に向上させる強力なツールです。現在はベータ版として提供されており、いくつかの制限事項はありますが、大量のドキュメント処理が必要な業務において大きな価値を提供します。
特に、定型的なフォーマットの文書を大量に処理する必要がある場合や、文書内の表データを抽出してデータ分析に活用したい場合に効果的です。