0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

マルチモーダルLLM(VLM)の MiniCPM-V 4.5 の日本語認識能力を試してみた

Last updated at Posted at 2025-09-20

このブログは?

8Bパラメータという比較的小規模な構成で、GPT-4oに匹敵する精度を持つというマルチモーダルLLM(VLM)の MiniCPM-V 4.5 ご紹介と日本語や日本固有文化に関してのVQAの簡単な検証結果のご紹介です。

MiniCPM-V 4.5 とは?

モデルカードはこちら↓です。

モデルカードのリンクだけではあんまりなので、紹介文を OCI Generative AI の Cohere Command A の力を借りて和訳&要約してみました...と思ったのですが自分ならこうは紹介しないなぁという表現が多かったのでかなり...いや、ほとんど手直ししてます^^;

MiniCPM-V 4.5

MiniCPM-V 4.5は、MiniCPM-Vシリーズの中で最新かつ最も強力なモデルです。言語モデル部分には Qwen3-8Bを、ビジョンエンコーダーには SigLIP2-400M を採用した総パラメータ数80億(8B)と比較的コンパクトなマルチモーダルLLMです。最近では、8Bクラスのコンパクトなモデルで実用レベルの性能を持つモデルが増えてきましたが MiniCPM-V 4.5 もそのひとつですね。

マルチモーダルLLMとして、画像・動画・文書などを総合的に処理できる点が大きな特徴で、3D-Resampler、LLaVA-UHDベースの高解像度画像処理、マルチモーダルRL(強化学習)を用いた高速・深度推論の切替機能といった最新アーキテクチャ・技術を用いて省メモリかつ効率的な推論を可能にしているとのことです。

image.png
https://huggingface.co/openbmb/MiniCPM-V-4_5 より)

3D-Resamplerは動画フレームをグループ化して一度に圧縮することで、従来よりも圧倒的に少ないトークン数で長尺・高FPS動画を扱える仕組みを実現しています(6つの連続したフレームをたったの64トークンに圧縮しているそうです。これは、MiniCPM-V の静止画のトークン数と同じとのこと)。これにより、処理するフレーム数や情報量が大きく増えても推論コストが大幅に抑えることに成功しているようです。

また、高解像度かつ多様なアスペクト比に対応した画像処理や、動画・文書のOCR(文字認識)機能にはLLaVA-UHDの高精細ビジョン技術が使われています。強化学習や最新のRLAIF-V手法による推論モード切替は、状況に応じて高速処理と深度思考をユーザーが自在に選択できる設計です。

MiniCPM-V 4.5 を試してみた

Hugging Face の Spaces で実際に画像や動画をアップロードして試してみることができます。

言語・文化に依存しない被写体の画像に VQA してみた

最初は、活発な太陽活動の様子を写した写真をアップロードして、「この現象が人間社会に与える影響について教えてください。」と聞いてみました。

Spaces のデモはこんな感じです。

image.png

アップロードした画像とプロンプトはこちら↓です。

画像 プロンプト
pexels-pixabay-39561.jpg この現象が人間社会に与える影響について教えてください。

そして、MiniCPM-V 4.5 の応答がこちらです。

MiniCPM-V 4.5 の応答
この画像は太陽の表面に現れる「太阳黒点」とその周囲の「プラズマ活動」(特に大きな爆発やコロナ質量放出、CME)を示している。このような太陽活動は人間社会に多大な影響を与えることがあります。
1. 通信システムへの影響
電磁波干渉:太陽放出による電磁波が地上の無線通信や衛星通信に干渉し、短波通信やGPS信号が誤作动する可能性があります。
衛星障害:通信衛星や観測衛星が機能不全になることがあり、地球観測や宇宙探査に影響します。
2. 電力システムへの影響
電磁誘導:大規模なコロナ質量放出(CME)は地球大气层に強い電磁誘導を起こし、電力網に干渉して大面积停電(blackout)を引き起こすことがあります。
3. 航空業界への影響
高纬度飛行機:極地周辺の高空飛行機は、太陽放出による高エネルギー粒子照射を受け、乗客やcrew成员への放射線曝露リスクが増加します。
4. 科学研究への影響
観測困難:太陽放出による地球大气层への光干渉は、地上観測や衛星観測のデータ品質に影響を与えます。
5. 安全性への影響
放射線リスク:宇宙飛行士や宇宙probeへの放射線曝露リスクが増加します。
6. 気候への間接影響
オゾン層変動:太陽活動は地球的大気層尤其是オゾン層に影響を与え、気候や生物圏に微細な影響を及ぼすことがあります。
まとめ
太陽黒点やプラズマ活動は、人間社会の通信、電力、航空、科学など多岐にわたる分野に影響を与え、特に大規模なコロナ質量放出(CME)が発生した場合、現代社会の基盤となる技術やインフラに深刻な干渉を与えることがあります。そのため、太陽活動の監視と予報が重要な課題となっています。

なかなか良い線行っているのですがところどころ中国語の漢字・単語が混ざってしまいました。
OCI Generative AI Service の Cohere Command A を使って、自然な日本語に直してもらったものがこちらです。

Cohere Command A で自然な日本語に直したもの
この画像は太陽の表面に現れる「黒点」とその周囲の「プラズマ活動」(特に大きな爆発やコロナ質量放出、CME)を示しています。このような太陽活動は人間社会に多大な影響を与えることがあります。

1. 通信システムへの影響
- 電磁波干渉:太陽からの電磁波が地上の無線通信や衛星通信に干渉し、短波通信やGPS信号が誤作動する可能性があります。
- 衛星障害:通信衛星や観測衛星が機能不全になることがあり、地球観測や宇宙探査に影響します。

2. 電力システムへの影響
- 電磁誘導:大規模なコロナ質量放出(CME)は地球大気圏に強い電磁誘導を起こし、電力網に干渉して大規模停電(ブラックアウト)を引き起こすことがあります。

3. 航空業界への影響
- 高緯度飛行機:極地周辺の高空飛行機は、太陽からの高エネルギー粒子照射を受け、乗客やクルーへの放射線被曝リスクが増加します。

4. 科学研究への影響
- 観測困難:太陽からの放射が地球大気圏に光干渉を引き起こし、地上観測や衛星観測のデータ品質に影響を与えます。

5. 安全性への影響
- 放射線リスク:宇宙飛行士や宇宙プローブへの放射線被曝リスクが増加します。

6. 気候への間接影響
- オゾン層変動:太陽活動は地球大気圏、特にオゾン層に影響を与え、気候や生物圏に微細な影響を及ぼすことがあります。

まとめ

太陽黒点やプラズマ活動は、人間社会の通信、電力、航空、科学など多岐にわたる分野に影響を与えます。特に大規模なコロナ質量放出(CME)が発生した場合、現代社会の基盤となる技術やインフラに深刻な障害を与えることがあります。そのため、太陽活動の監視と予報が重要な課題となっています。
Cohere Command A による修正点
- 「太阳黒点」→ 「黒点」
- 「误作动」→ 「誤作動」
- 「大气层」→ 「大気圏」
- 「大面积停電」→ 「大規模停電」
- 「高纬度飛行機」→ 「高緯度飛行機」
- 「crew成员」→ 「クルー」
- 「宇宙probe」→ 「宇宙プローブ」
- 「尤其是」→ 「特に」

この太陽画像のように画像の被写体が言語・文化に依存しないものであれば、MiniCPM-V 4.5 の応答を適切に翻訳してあげれば実用になりそうですね。

日本語テキストを読み取る必要がある動画の場合

次は、質問に答えるためには画像(動画)中の日本語テキストを読み取る必要がある場合の実験です。今回は、動画にしてみました。

テストに使った動画はこちらのマルチモーダルRAGのデモ(写真に対するRAG)です。画像・テキストのマルチモーダルベクトルデータベースとMLLMで構成された RAG による質問応答アプリケーション「マルチモーダル・レトリバー」に対して、「練馬区がアニメ発祥の地と謳っている看板があるのはどこですか?」という質問をして日本語で回答してもらっているデモ動画です。

マルチモーダルRAGのデモ(写真に対するRAG)

MiniCPM-V 4.5 の応答が返ってきたときにスクリーンショットです。

image.png

プロンプト
この動画を説明してください。
MiniCPM-V 4.5 の応答
この動画は「マルチモーダルリーバ」(Multimodal Reiver)と呼ばれる、AI ​​モデルの多モーダル画像検索アプリケーションを示しています。
画面全体が黒色の背景で、上部に「マルチモーダルリーバ by cohere.embed-v4.0」というタイトルと説明文が表示されています。

画面は主に2つの大きなセクションで構成されています。上半分は「検索設定」セクションで、下半分は「検索結果表示」セクションです。

上半分(検索設定)
- 検索モード:「画像検索」が選択されています。
- 検索クエリエ:「東京駅の看板写真を検索してください」と入力されています。
- 検索方法:「検索ボタン」を押すと「検索と検索結果生成」が選択されます。
- クエリの詳細:「東京駅の看板写真を検索してください」と表示され、「詳細を確認する」ボタンも表示されています。
- ファイルアップロード:「アップロード」ボタンと「選択」ボタンが表示され、選択ボタンは「 Kawasaki Station」と表示されています。
- オプション:「検索モード選択」の「画像」が選択されているのが確認できます。
下半分(検索結果表示)
- 初石駅の看板写真(「上石神井駅」や「アニメ発祥の地 �区」など)が表示されます。
- �画の詳細な情報が表示されます。
- ペレパジングボタン(<<、<、>、>>)が表示され、当前ページは1ページ目です。
他のセクション
- 「検索モード選択」セクションでは「画像」が選択されているのが確認できます。
- 「クエリの詳細」セクションでは「東京駅の看板写真を検索してください」と入力され、「詳細を確認する」ボタンも表示されています。
- 「検索結果表示」セクションでは、搜索結果として「上石神井駅」の看板写真が表示され、詳細な情報も表示されます。
全体的に、ユーザーが「東京駅の看板写真を検索してください」と入力し、AI ​​モデルがそのクエリに応対応果を返す過程が示されています。
画面のデザインはシンプルで、重点は操作性和結果の表示にあります。

動画中の日本語テキストの理解に苦労しているようです。クエリーは「練馬区がアニメ発祥の地と謳っている看板があるのはどこですか?」なのですが「東京駅の看板写真を検索してください」と完全にハルシネーションしています。「上石神井駅」も「初石駅」となっているところがあります。

一旦、「Clear History」で履歴を消去して改めて「どのような操作が行われていますか?動画の順番に説明してください。」と聞いてみました。

プロンプト
どのような操作が行われていますか?動画の順番に説明してください。
MiniCPM-V 4.5 の応答
この動画は、マルチモーダルリリーバー(Multimodal Replier)の操作手順を示すものです。具体的には、日本語の文章と画像を入力し、AIが日本語の文章として返事を生成する手順を示しています。

初期画面の表示
動像は「マルチモーダルリリーバー by cohere.embed-v4.0」の界面を示し、各セクション(検査設定、画像の追加、訓練設定など)が表示されています。
検査設定の入力
「検査設定」セクションで、「検査内容」に「東京駅に到着したときの景色はどんな感じですか?」と入力し、「検査する画像」も選択します。
訓練設定の確認
「訓練設定」セクションで「モデル選択」が「 GeForce RTX 3090」、「訓練方法選択」が「すべて」、「モデル選択」が「 GeForce RTX 3090」、「訓練設定」が「 GeForce RTX 3090」に設定されていることを確認します。
訓練の開始
「検査と検査結果生成」ボタンをクリックし、訓練が進行中(処理中)的状态が表示されます。
訓練の完了
訓練が完了すると、結果が表示され「東京駅に到着したときの景色は、駅構内や駅前の街並み、高層ビルの夜景などです。」という返事が表示されます。
検査設定の変更
次回の検査設定では、「東京駅に到着したときの景色はどんな感じですか?」と再度入力し、「モデル選択」を「 GeForce RTX 3090」、「訓練方法選択」を「すべて」、「モデル選択」を「 GeForce RTX 3090」、「訓練設定」を「 GeForce RTX 3090」に設定します。
訓練の再開
「検査と検査結果生成」ボタンをクリックし、再びで訓練が進行します。
結果の表示
訓練が完了すると、結果が表示され「東京駅に到着したときの景色は、駅構内や駅前の街並み、高層ビルの夜景などです。」という返事が表示されます。
検査設定の変更(画像含む)
次回の検査設定では、「東京駅に到着したときの景色はどんな感じですか?」と再度入力し、「モデル選択」を「 GeForce RTX 3090」、「訓練方法選択」を「すべて」、「モデル選択」を「 GeForce RTX 3090」、「訓練設定」を「 GeForce RTX 3090」に設定し、「画像追加」セクションで「東京駅の写真」を追加します。
訓練の再開(画像含む)
「検査と検査結果生成」ボタンをクリックし、再びで訓練が進行します。
結果の表示(画像含む)
訓練が完了すると、結果が表示され「東京駅に到着したときの景色は、駅構内や駅前の街並み、高層ビルの夜景などです。」という返事が表示されます。追加した「東京駅の写真」も表示されます。
結果の詳細表示
最終的には、「結果詳細」セクションで選択した「東京駅の写真」が詳細に表示され、画像の下に「東京駅の写真」の説明文が表示されます。
まとめると、この動画は、日本語の文章と画像を入力し、AIが日本語の文章として返事を生成する手順を示し、各操作(設定、訓練、結果表示)の流れを示しています。

クエリーは、「どのような操作が行われていますか?動画の順番に説明してください。」ですが「東京駅に到着したときの景色はどんな感じですか?」と取り違えていて、以降はこの間違えたクエリーにつじつまを合わせるかのようにハルシネーションしています。また、「モデル選択」が「 GeForce RTX 3090」というのも完全にハルシネーションです(私も 3090 を所有していたら嬉しいのですが。そもそもこのアプリに GPU のモデルを選択するような機能はありません)。

画像や動画中の日本語テキストの読み取りが必要なタスクでは、モデルそのままでは厳しそうです。

日本固有の文化に関する知識が必要な質問

最後は、日本固有の知識が必要な質問の例として「鯉のぼり」が写っている写真の説明を求めてみました。

画像 プロンプト
20240428_181134.JPG 写真に写っているものを説明してください。
MiniCPM-V 4.5 の応答
この写真は、日本的大都市(おそらく東京や大阪など)の街並みを示しています。主な特徴は以下の通りです。

川と川堤:画面下部に川が流れ、川堤(川の両側の土壁)が見えます。川には「風船旗」(風船の形をした風sock)が飾られています。
橋:川を架けた橋があり、その両側に風sockが垂らされています。風sockは、日本的传统的な「風sock祭り」の象徴であり、主に端午の節句(5月5日付近)に飾られます。
高層ビル:背景には高層ビルが立ち並び、都市の密集度を示しています。左側のビルには「ヤマダ」という書かれた看板があり、「ヤマダ硝子」や「ヤマダ家電」など、有名な百貨店や電気店が存在する可能性があります。
緑地:川堤の上には草や木が茂っており、都市の中にも自然が残っているのが見られます。
夕暮れの空:空は薄いピンクや紫の色合いがあり、傍晚(傍晚)の時刻である可能性が高いです。
歩道と歩行者:川堤には歩道があり、数人は歩いているのが見えます。
この写真は、都市の日常性と伝統的な日本文化(風sock祭り)が融合した風景を捉えている。

「風船旗」や「風船の形をした風sock」という謎の表現が出て来ました。「端午の節句」が出てくることからこの画像から「鯉のぼり」に近い概念(特徴)を見出しているようですが「鯉のぼり」は出てこなかったようです。また「YAMADA」が電気屋さんであることは認識していますので多少の日本に関する知識は持っているようです。

あとがき

日本語テキストの読み取りが必要だったり、日本固有の文化に関する知識が必要なタスクには苦戦してしまうようですが、MiniCPM シリーズは今後が楽しみなマルチモーダルLLM ですね。

ビジョン・ランゲージ系のマルチモーダルモデルは下記の記事にまとめています。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?