Vision-Language 系マルチモーダルモデル一覧（原則日本語対応モデル限定）

Last updated at 2025-03-27Posted at 2024-08-31

この記事は何？

Vision（画像、動画）と Language（テキスト）にまがたるマルチモーダルモデルをトラッキングしていきます。原則として、日本語のテキストに対応した商用利用可能なオープンウェイトモデルを追っています。特別に目を引く技術が取り入れられたモデルであれば日本語未対応、商用不可でもリストに載せることがあるかもしれません。商用利用についてはモデルのライセンス条件やプレスリリース、ブログ記事などから著者が商用利用できそうと判断したものを載せていますが、商用利用と考えている場合にはご自身でもライセンス条件を確認してください。
このリストは、元々、Japanese Stable CLIP による画像の分類（a.k.a. 画像によるテキストの検索）、そして画像検索に向けてという記事の中に掲載していたものです。独立した記事にした方がわかりやすくて役に立つのではということで分離してメンテナンスしていこうというものです。

モデルの分類

モデルの分類の仕方は世の中で１つの方法に明確に定まっているわけではありませんので、私の主観で以下のように分類しています。

マルチモーダル埋め込みモデル：埋め込みモデル
Vision-Languageモデル：Image Captioning や Visual Question Answering (VQA) に対応したモデル
Encoder-Free Vision-Language モデル：デコーダーのみで構成されるモデル
Multimodal Understanding と画像生成の統合モデル

マルチモーダル埋め込みモデル

画像とテキストを同一の埋め込み空間にマッピングしてベクトル化（エンベディングの生成）が可能なモデル。モデル単体でも画像の分類タスクやベクトル検索に利用できる。

時期	開発者	モデル名	モデル	記事プレスリリース
2023年11月	stability ai	Japanese Stable CLIP	https://huggingface.co/stabilityai/japanese-stable-clip-vit-l-16	https://ja.stability.ai/blog/japanese-stable-clip
2024年1月	リクルート	japanese-clip-vit-b-32-roberta-base	https://huggingface.co/recruit-jp/japanese-clip-vit-b-32-roberta-base	https://blog.recruit.co.jp/data/articles/japanese-clip/
2024年5月	LINE	clip-japanese-base	https://huggingface.co/line-corporation/clip-japanese-base	https://techblog.lycorp.co.jp/ja/20240514b
2024年11月	Jina AI	Jina CLIP v2	https://huggingface.co/jinaai/jina-clip-v2	https://jina.ai/news/jina-clip-v2-multilingual-multimodal-embeddings-for-text-and-images/
2025年02月	LLM-jp	llm-jp-clip-vit-large-patch14	https://huggingface.co/llm-jp/llm-jp-clip-vit-large-patch14	https://speed1313.github.io/posts/llm-jp-clip/
2025年02月	LLM-jp	llm-jp-clip-vit-base-patch16	https://huggingface.co/llm-jp/llm-jp-clip-vit-base-patch16	https://speed1313.github.io/posts/llm-jp-clip/

Large Vision-Languageモデル（マルチモーダルLLM）

Image Captioning や Visual Question Answering (VQA)のようなタスクに利用可能な画像からテキストを生成するモデル。モデル単体でこれらのタスクを実現できるもの。

時期	開発者	モデル名	モデル	記事プレスリリース
2023年11月	stability ai	Japanese Stable VLM	https://huggingface.co/stabilityai/japanese-stable-vlm	https://ja.stability.ai/blog/japanese-stable-vlm
2024年1月	Haotian Liu, Chunyuan Li, Yuheng Li, Bo Li, Yuanhan Zhang, Sheng Shen, Yong Jae Lee	LLaVA-NeXT	https://github.com/haotian-liu/LLaVA/blob/main/docs/MODEL_ZOO.md	https://github.com/LLaVA-VL/LLaVA-NeXT
2024年5月	openbmb	MiniCPM-Llama3-V-2_5	https://huggingface.co/openbmb/MiniCPM-Llama3-V-2_5	https://github.com/OpenBMB/MiniCPM-V https://unfoldai.com/minicpm-llama3-v-2-5-review/
2024年6月	CyberAgent	llava-calm2-siglip	https://huggingface.co/cyberagent/llava-calm2-siglip	https://www.cyberagent.co.jp/news/detail/id=30344
2024年7月	InternLM	InternLM-XComposer-2.5	https://github.com/InternLM/InternLM-XComposer	https://github.com/InternLM/InternLM-XComposer https://www.youtube.com/watch?v=8tYpiQNOJww
2024年8月	Sakana AI	Llama-3-EvoVLM-JP-v2	https://huggingface.co/SakanaAI/Llama-3-EvoVLM-JP-v2	https://sakana.ai/evovlm-jp/
2024年8月	Axcxept co., ltd.	Llama-3-EZO-VLM-1	https://huggingface.co/HODACHI/Llama-3-EZO-VLM-1	https://prtimes.jp/main/html/rd/p/000000006.000129878.html
2024年8月	ByteDance等	LLaVA-OneVision	https://huggingface.co/collections/lmms-lab/llava-onevision-66a259c3526e15166d6bba37	https://llava-vl.github.io/blog/2024-08-05-llava-onevision/ https://arxiv.org/abs/2408.03326 https://huggingface.co/docs/transformers/main/en/model_doc/llava_onevision
2024年8月	Alibaba Cloud	Qwen2-VL（※1）	https://huggingface.co/collections/Qwen/qwen2-vl-66cee7455501d7126940800d	https://qwenlm.github.io/blog/qwen2-vl/ https://github.com/QwenLM/Qwen2-VL
2024年11月	国立情報学研究所大規模言語モデル研究開発センター（LLMC）	llm-jp-3-vila-14b	https://huggingface.co/llm-jp/llm-jp-3-vila-14b	https://llmc.nii.ac.jp/topics/llm-jp-3-vila-14b/
2025年1月	Alibaba Cloud	Qwen2.5-VL（※2）	https://huggingface.co/collections/Qwen/qwen25-vl-6795ffac22b334a837c0f9a5	https://github.com/QwenLM/Qwen2.5-VL
2025年1月	AIDC-AI	Ovis-2（※3）	https://huggingface.co/collections/AIDC-AI/ovis2-67ab36c7e497429034874464	https://github.com/AIDC-AI/Ovis
2025年2月	東京大学先端研上原康平氏 et.al.	Asagi-VLM	https://huggingface.co/collections/MIL-UT/asagi-vlm-67b973a2b1fbda376b0ccf5d	https://uehara-mech.github.io/asagi-vlm https://speakerdeck.com/kuehara/da-gui-mo-ri-ben-yu-vlm-asagi-vlmniokeruhe-cheng-detasetutonogou-zhu-tomoderushi-zhuang
2025年3月	Cohere For AI	Aya Vision	https://huggingface.co/CohereForAI/aya-vision-8b https://huggingface.co/CohereForAI/aya-vision-32b	https://cohere.com/blog/aya-vision https://huggingface.co/spaces/CohereForAI/aya_expanse_vision
2025年3月	SB Intuitions	Sarashina2-Vision	https://huggingface.co/sbintuitions/sarashina2-vision-8b https://huggingface.co/sbintuitions/sarashina2-vision-14b	https://www.sbintuitions.co.jp/blog/entry/2025/03/17/111659

※1：Qwen2 VL の検証記事を書きました↓

※2：同僚が書いた Qwen2.5 VL を vLLM で動かす記事です↓

※3：Model Card 上は、サポート言語は英語と中国語です。Hugging Face Spaces のデモで簡単にテストした限りでは、日本語テキストプロンプトの使用、画像中の日本語の抽出（OCR）、画像の日本語キャプション生成のいずれも問題ないようです。
同僚が書いた Ovis2 を動かす記事です↓

Encoder-Free Vision-Language モデル

最近の主要な LLM 同様にエンコーダーを持たずデコーダーのみで構成される Encoder-Free Vision-Language モデル。ビジョンエンコーダーで画像がばらばらのパッチに分解されたり、アスペクト比や解像度の調整のために情報が失われることがなくなり、ビジネスの世界で不可欠な図表や表の認識精度の向上に近い将来貢献してくれるのではないかと期待（妄想）しています。

時期	開発者	モデル名	モデル	記事プレスリリース論文
2024年6月	BAAI	EVE(※)	https://huggingface.co/BAAI/EVE-7B-v1.0	https://github.com/baaivision/EVE https://arxiv.org/abs/2406.11832

※：日本語への対応は不明

Multimodal Understanding と画像生成の統合モデル

単一のモデルで画像生成とImage Captioning、Visual Question Answering (VQA)が可能なモデル
※この記事では、Large Vision-Language Model(LVLM)を MLLM としていますが、こちらの統合モデルをMLLM（マルチモーダルLLM）と呼ぶ方もいるようです。

時期	開発者	モデル名	モデル	記事プレスリリース論文
2024年8月	Show Lab at National University of Singapore	Show-o(※)	https://huggingface.co/showlab/show-o	https://github.com/showlab/Show-o https://huggingface.co/spaces/showlab/Show-o
2025年	DeepSeek AI	Janus Pro	https://huggingface.co/deepseek-ai/Janus-Pro-7B	https://github.com/deepseek-ai/Janus

※：日本語プロンプトは理解しているようですが、応答は英語で返ってきます。日本語テキストのOCRはハルシネーションします。現時点で私が試してみた限りでは、イラストや英文のOCRでもハルシネーションが多いようですが面白い取り組みだと思います

最後に

この記事に載っていないモデルで、日本語に対応している、商用利用もできる、というものを見つけた方（自薦他薦問わず歓迎）はご一報いただけると嬉しいです（あまり古いモデルを載せても活用機会が少ないと思いますので、2024年4月以降に登場したものだとなお嬉しいです）。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

Vision-Language 系 マルチモーダルモデル一覧（原則日本語対応モデル限定）