この記事は、「DeepAelurus(NPO法人AI開発推進協会)」 Advent Calendar 2023 4日目の記事です。
1. はじめに
この数か月で、画像の入力に対応したローカルLLMがいくつか登場しています。
- Turing社「Heron」
- Stablity AI社「Japanese Stable VLM」
Stablity AI社の「Japanese Stable VLM」は、画像入力対応でかつ条件の範囲内で商用利用可能な日本語画像言語モデルです。Windows上でも簡単に導入でき単一のリポジトリで完結することから、今回はこのモデル(以下、Stable VLM)を使って何ができるのか実験してみました!
- 以下の環境で動作を確認しました。
項目 | |
---|---|
OS | Windows 11 |
CPU | AMD Ryzen 7 5700X |
メインメモリ | 64GB |
GPU | NVIDIA GeForce RTX 3090 |
2. 実装
image-to-textモデルということで、画像ファイルを一括で処理するスクリプトを作成しました。
Stable VLMとHeronの各種モデル(GIT、BLIP)に対応しています。
Stable VLMにおいては、以下のタスクに対応しています。
タスク | 説明 |
---|---|
"caption":キャプション | 画像を説明する |
"tag":タグ | 与えた単語を使って説明する |
"vqa":質問応答 | 画像に関する質問に答える |
上述のタスクを利用し、実装した処理内容は以下の通りです。
-
--save_text
: 画像ファイル名とそれに対応する結果をテキストファイルに保存する。 -
--rename
: モデルの出力に従ってファイル名を変更する。 -
--classify
: モデル出力に従って画像ファイルを複数のフォルダに分類する。
使い方
コマンドラインやJupyter Notebook上で簡単に実行できます。
from stable_vlm import StableVLM
model = StableVLM("Z:\models\japanese-stable-vlm")
model.run_tools(
input_dir="path/to/images_input",
output_dir="path/to/images_output",
task="caption",
input="",
do_sample=False,
save_text=True,
rename=True,
classify=False,
)
3. 実験
3.1 写っているものや動物別に画像ファイルを分類する
パラメータ | 設定 |
---|---|
タスク | 質問応答 |
入力情報 | "この画像に写っている動物は何ですか?" |
フォルダ分けを実行すると...
一つのフォルダ名が「この写っている画像を下に、質問に答えてください。」になってしまいましたが、この中にはライオンの画像が入っており、フォルダの分類自体はできていました。
3.2 画像ファイル名を、写っているもの・動物などの名前に変更する
パラメータ | 設定 |
---|---|
タスク | 質問応答 |
入力情報 | "この画像に写っている動物は何ですか?" |
3.1と同様の画像について、リネームを行うと以下のようになります。
単一の動物写真であれば、かなり精度高く分類を自動化できそうです!
3.3 人物写真に写っている人の人数を認識する
意地悪として、ミーアキャットの画像を紛れ込ませてみました。
パラメータ | 設定 |
---|---|
タスク | 質問応答 |
入力情報 | "この画像に写っている人の人数は何人ですか?" |
写っている人数でリネームすると、以下のようになります。
- 「1」と「1」など半角と全角で別々になってしまいました(改善の余地あり)。
- 1、2人は完璧に認識できていますが、グループ写真はの人数はまちがっています。(本当は6人)
- ミーアキャットの画像は、もはや人数ではなく「この画像を下に、質問に答えたください。」になってしまいました。
3.4 面白い画像を説明させる
「DALL.E 3」を利用して、いくつか様々なテイスト、画風の画像を生成してみました。これらの画像を説明できるのか試してみます。
パラメータ | 設定 |
---|---|
タスク | 質問応答 |
入力情報 | "この画像の面白い点は何ですか?" |
結果は以下のようになりました。
現時点でのStable VLMには、「画像の面白さを説明させる」のは難しいようです。
試しに、単純にキャプションをつけてみました。
パラメータ | 設定 |
---|---|
タスク | キャプション |
入力情報 | なし |
ハンバーガーの画像はそのままでしたが、単純なキャプションタスクの方が画像をよく説明できています。「面白さ」という観点の答えではありませんが、ある程度画像の情景描写ができていることがわかります。
3.5 おまけ:YouTubeの音楽MVのキャプショニング
単一のフレームからどれだけその動画の状況をテキスト化できるのか、試してみました。
(今まで個人的にカラオケ音源を制作した楽曲の原曲MVの中から、キャプショニングテストとして良さそうな動画のフレームをピックアップしました)
-
「勇者 / YOASOBI」
連呼するだけになってしまいました。現段階のStable VLMでは、「質問をおうむ返しする」「特定の単語を連呼する」ことがあるという問題がありそうです。 -
「Chessboard / Official髭男dism」
状況を正しく理解しています。この曲のコンセプトである「チェスボード」の意図を正しく出力できています。 -
「強風オールバック / ゆこぴ」
状況を正しく理解していますが、さすがに強風でオールバックになっていることは出力されませんでした。 -
「Majoram Therapie / ももいろクローバーZ」
アニメではなく実写ですが、「ステージで踊る」という状況は正しく理解しています。 -
「アイデン貞貞メルトダウン / えなこ feat. P丸様。」
合っていそうで合っていませんでした。「キャラクター」「スクリーン」という意味では部分的に捉えられています。 -
「なにもの / King & Prince」
演奏はしていませんが、「赤いカーテン」「2人」という部分は正しく認識できています。 -
「星座になれたら / 結束バンド」
暗くわかりにくいですが、こちらも部分的に「キャラクター」「街」という意味を捉えているものの、文章としては無理があります。 -
「habit / SEKAI NO OWARI」
座ってはいませんが、人々であることは認識しています。よくよく考えると、机に座ってはいけません。
ほとんどの動画において、部分的にキーワードを出力させることには成功しました。形態素解析などを盛り込んで単語化すれば、この認識結果を使って何か応用ができるかもしれません。
4. さいごに
「Japanese Stable VLM」を利用して画像ファイルを一括処理する方法を紹介しました。難しいタスクがあったものの、ある程度キャプショニングや画像分類を自動化できることがわかりました。
今後、Stable VLMなどのローカルで動作するマルチモーダルモデルがさらに高精度になっていくのが楽しみです!
ご覧いただきありがとうございました!