本記事はこちらのブログを参考にしています。
翻訳にはアリババクラウドのModelStudio(Qwen)を使用しております。
イントロダクション
現代のデジタル時代において、視覚コンテンツの効果的な管理と情報抽出は特に図書館、書店、個人のコレクションにとって不可欠です。クラウドストレージとAI技術の活用により、このプロセスは大幅に効率化できます。本ブログでは、アリババクラウドのオブジェクトストレージサービス(OSS)バケットに保存された本の表紙画像を読み取り、タイトル、著者、出版社などの詳細を含むCSVファイル(カタログ)を作成するカタログシステムの作成方法をお伝えします。これには、スケーラブルなストレージを提供するアリババクラウドOSSと、画像からの情報抽出に最適なQwen-VL-Plusモデルを使用したモデルスタジオが組み合わさっています。実際の動作については、以下のビデオをご覧ください。
https://alicloud-common.oss-ap-southeast-1.aliyuncs.com/2024/blog/catalog-watermark%20version.mp4
1. アリババクラウドOSSの設定
アリババクラウドOSSとは何か?
アリババクラウドOSSは、大規模な非構造化データ(オブジェクト)の格納を可能にする拡張性とセキュリティの高いクラウドストレージサービスです。
OSSバケットの作成
バケットを作成するには、グローバルにユニークな名前とリージョンを選択する必要があります。以下のように、私は「bookcatalog」という名前のバケットを作成し、すべての本の画像を保存しました。
画像のアップロード
バケットを作成したら、PC、ラップトップ、またはスマートフォンから本の表紙画像をOSSバケットにアップロードできます。今回のデモでは、「um」というディレクトリを作成し、そこにお話の表紙画像をアップロードしています。
2. Model Studioの紹介
アリババクラウド・モデルスタジオは、基礎モデルの開発とアプリケーション構築向けの総合プラットフォームです。開発者やビジネスプロフェッショナルが迅速に基礎モデルアプリケーションを作成・デプロイできるようにサポートしています。読者はモデルスタジオの様々な機能を模索することをお勧めします。
今回のブログでは、Pythonプログラム内でQwen-VL-Plusモデルと通信するために使用するAPIキーをModel Studioから取得する必要があります。APIキーの取得方法は以下の図に従ってください。
Qwen-VL-Plusモデルとは?
アリババクラウドのQwen-VL-Plusモデルは、強化されたテキスト抽出、整理、要約機能を提供し、より幅広い解像度とアスペクト比の画像に対応し、高度な意思決定のための視覚的推論能力を向上させます。また、宿題の問題など複雑な問題の手順解決も可能な写真解析が可能です。Model StudioのGUIを通じて様々なQwenモデルをテストすることができますが、このブログではPythonスクリプトを使用してQwen-VL-PlusモデルへのAPI呼び出しを生成します。
3. OSSとQwenモデルの統合
このデモでは、VS Codeを使用してPythonスクリプトを書いて、OSSバケット内の「um」ディレクトリにある表紙ページから書名、著者名、出版社名などの情報を抽出します。
環境の設定
dotenv Pythonライブラリを使用して環境変数を読み込みます。APIキーを含むことで、アプリケーションの安全性と管理性が向上します。.env
ファイルはAPIキー、アクセスキー、その他の機密的または設定可能な情報をコードベースの外に保存するためのシンプルなテキストファイルです。
API呼び出しの実行
一部のコードスニペットは、必要なPythonライブラリやバケット名、リージョン、バケット内の画像数などの変数を示しています。完全なPythonコードを確認するには、こちらのリンクをクリックしてください。
4. プログラムの実行と最終結果
Pythonライブラリのインストール
コードを実行する前に、dashscopeとdotenvライブラリを以下のようにインストールします。
pip install dashscope python-dotenv
また、Model Studioから取得したAPIキーを保存するために.env
ファイルを用意してください。
CSV形式での結果の保存
ターミナルから(python3 main.py
)または直接VS Code GUIからmain.py
を実行します。実行が終了すると、「book_info.csv」というCSVファイルが生成され、メインのPythonスクリプトがある同じフォルダーに保存されます。このファイルには、本の画像から抽出された必要な情報が含まれています。
確認のための本の画像
OSSバケットに保存されている本の実際の表紙画像を以下に示します。
この画像に対するQwen-VL-Plusの出力は「The Art of War, Sun Tzu, Vintage Books」であり、正確です。
5. 総括的な考え
オブジェクトのACLをPublic-Readに設定して、シンプルにしアクセスキーの使用を避けるためにしましたが、適切なセキュリティ対策を考慮することが推奨されます。よく作られたプロンプトはAIモデルからの応答品質を大幅に向上させることがあり、異なるプロンプトを試して応答を見てみることをお勧めします。また、本の表紙のフロントページに必要な情報が欠けている場合に特に注意してください。
6. 終わりに
まとめると、アリババクラウドOSSとモデルスタジオのQwen-VL-Plusモデルを組み合わせることで、表紙画像から直接本のコレクションのカタログ化を自動化した効率的なソリューションが実現します。OSSに画像を保存し、AIを使用して