10
8

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

Vision-Language 系 マルチモーダルモデル一覧(原則日本語対応モデル限定)

Last updated at Posted at 2024-08-31

この記事は何?

napkin-selection.png

Vision(画像、動画)と Language(テキスト)にまがたるマルチモーダルモデルをトラッキングしていきます。原則として、日本語のテキストに対応した商用利用可能なオープンウェイトモデルを追っています。特別に目を引く技術が取り入れられたモデルであれば日本語未対応、商用不可でもリストに載せることがあるかもしれません。商用利用についてはモデルのライセンス条件やプレスリリース、ブログ記事などから著者が商用利用できそうと判断したものを載せていますが、商用利用と考えている場合にはご自身でもライセンス条件を確認してください。
このリストは、元々、Japanese Stable CLIP による画像の分類(a.k.a. 画像によるテキストの検索)、そして画像検索に向けて という記事の中に掲載していたものです。独立した記事にした方がわかりやすくて役に立つのではということで分離してメンテナンスしていこうというものです。

モデルの分類

モデルの分類の仕方は世の中で1つの方法に明確に定まっているわけではありませんので、私の主観で以下のように分類しています。

  • マルチモーダル埋め込みモデル:埋め込みモデル
  • Vision-Languageモデル:Image Captioning や Visual Question Answering (VQA) に対応したモデル
  • Encoder-Free Vision-Language モデル:デコーダーのみで構成されるモデル
  • Multimodal Understanding と画像生成の統合モデル

マルチモーダル埋め込みモデル

image.png

画像とテキストを同一の埋め込み空間にマッピングしてベクトル化(エンベディングの生成)が可能なモデル。モデル単体でも画像の分類タスクやベクトル検索に利用できる。

時期 開発者 モデル名 モデル 記事
プレスリリース
2023年11月 stability ai Japanese Stable CLIP https://huggingface.co/stabilityai/japanese-stable-clip-vit-l-16 https://ja.stability.ai/blog/japanese-stable-clip
2024年1月 リクルート japanese-clip-vit-b-32-roberta-base https://huggingface.co/recruit-jp/japanese-clip-vit-b-32-roberta-base https://blog.recruit.co.jp/data/articles/japanese-clip/
2024年5月 LINE clip-japanese-base https://huggingface.co/line-corporation/clip-japanese-base https://techblog.lycorp.co.jp/ja/20240514b
2024年11月 Jina AI Jina CLIP v2 https://huggingface.co/jinaai/jina-clip-v2 https://jina.ai/news/jina-clip-v2-multilingual-multimodal-embeddings-for-text-and-images/
2025年02月 LLM-jp llm-jp-clip-vit-large-patch14 https://huggingface.co/llm-jp/llm-jp-clip-vit-large-patch14 https://speed1313.github.io/posts/llm-jp-clip/
2025年02月 LLM-jp llm-jp-clip-vit-base-patch16 https://huggingface.co/llm-jp/llm-jp-clip-vit-base-patch16 https://speed1313.github.io/posts/llm-jp-clip/

Large Vision-Languageモデル(マルチモーダルLLM)

Image Captioning や Visual Question Answering (VQA)のようなタスクに利用可能な画像からテキストを生成するモデル。モデル単体でこれらのタスクを実現できるもの。

時期 開発者 モデル名 モデル 記事
プレスリリース
2023年11月 stability ai Japanese Stable VLM https://huggingface.co/stabilityai/japanese-stable-vlm https://ja.stability.ai/blog/japanese-stable-vlm
2024年1月 Haotian Liu, Chunyuan Li, Yuheng Li, Bo Li, Yuanhan Zhang, Sheng Shen, Yong Jae Lee LLaVA-NeXT https://github.com/haotian-liu/LLaVA/blob/main/docs/MODEL_ZOO.md https://github.com/LLaVA-VL/LLaVA-NeXT
2024年5月 openbmb MiniCPM-Llama3-V-2_5 https://huggingface.co/openbmb/MiniCPM-Llama3-V-2_5 https://github.com/OpenBMB/MiniCPM-V
https://unfoldai.com/minicpm-llama3-v-2-5-review/
2024年6月 CyberAgent llava-calm2-siglip https://huggingface.co/cyberagent/llava-calm2-siglip https://www.cyberagent.co.jp/news/detail/id=30344
2024年7月 InternLM InternLM-XComposer-2.5 https://github.com/InternLM/InternLM-XComposer https://github.com/InternLM/InternLM-XComposer
https://www.youtube.com/watch?v=8tYpiQNOJww
2024年8月 Sakana AI Llama-3-EvoVLM-JP-v2 https://huggingface.co/SakanaAI/Llama-3-EvoVLM-JP-v2 https://sakana.ai/evovlm-jp/
2024年8月 Axcxept co., ltd. Llama-3-EZO-VLM-1 https://huggingface.co/HODACHI/Llama-3-EZO-VLM-1 https://prtimes.jp/main/html/rd/p/000000006.000129878.html
2024年8月 ByteDance等 LLaVA-OneVision https://huggingface.co/collections/lmms-lab/llava-onevision-66a259c3526e15166d6bba37 https://llava-vl.github.io/blog/2024-08-05-llava-onevision/
https://arxiv.org/abs/2408.03326
https://huggingface.co/docs/transformers/main/en/model_doc/llava_onevision
2024年8月 Alibaba Cloud Qwen2-VL(※1) https://huggingface.co/collections/Qwen/qwen2-vl-66cee7455501d7126940800d https://qwenlm.github.io/blog/qwen2-vl/
https://github.com/QwenLM/Qwen2-VL
2024年11月 国立情報学研究所大規模言語モデル研究開発センター(LLMC) llm-jp-3-vila-14b https://huggingface.co/llm-jp/llm-jp-3-vila-14b https://llmc.nii.ac.jp/topics/llm-jp-3-vila-14b/
2025年1月 Alibaba Cloud Qwen2.5-VL(※2) https://huggingface.co/collections/Qwen/qwen25-vl-6795ffac22b334a837c0f9a5 https://github.com/QwenLM/Qwen2.5-VL
2025年1月 AIDC-AI Ovis-2(※3) https://huggingface.co/collections/AIDC-AI/ovis2-67ab36c7e497429034874464 https://github.com/AIDC-AI/Ovis
2025年2月 東京大学先端研上原康平氏 et.al. Asagi-VLM https://huggingface.co/collections/MIL-UT/asagi-vlm-67b973a2b1fbda376b0ccf5d https://uehara-mech.github.io/asagi-vlm

https://speakerdeck.com/kuehara/da-gui-mo-ri-ben-yu-vlm-asagi-vlmniokeruhe-cheng-detasetutonogou-zhu-tomoderushi-zhuang
2025年3月 Cohere For AI Aya Vision https://huggingface.co/CohereForAI/aya-vision-8b

https://huggingface.co/CohereForAI/aya-vision-32b
https://cohere.com/blog/aya-vision

https://huggingface.co/spaces/CohereForAI/aya_expanse_vision
2025年3月 SB Intuitions Sarashina2-Vision https://huggingface.co/sbintuitions/sarashina2-vision-8b

https://huggingface.co/sbintuitions/sarashina2-vision-14b
https://www.sbintuitions.co.jp/blog/entry/2025/03/17/111659

※1:Qwen2 VL の検証記事を書きました↓

※2:同僚が書いた Qwen2.5 VL を vLLM で動かす記事です↓

※3:Model Card 上は、サポート言語は英語と中国語です。Hugging Face Spaces のデモで簡単にテストした限りでは、日本語テキストプロンプトの使用、画像中の日本語の抽出(OCR)、画像の日本語キャプション生成のいずれも問題ないようです。
同僚が書いた Ovis2 を動かす記事です↓

Encoder-Free Vision-Language モデル

最近の主要な LLM 同様にエンコーダーを持たずデコーダーのみで構成される Encoder-Free Vision-Language モデル。ビジョンエンコーダーで画像がばらばらのパッチに分解されたり、アスペクト比や解像度の調整のために情報が失われることがなくなり、ビジネスの世界で不可欠な図表や表の認識精度の向上に近い将来貢献してくれるのではないかと期待(妄想)しています。

時期 開発者 モデル名 モデル 記事
プレスリリース
論文
2024年6月 BAAI EVE(※) https://huggingface.co/BAAI/EVE-7B-v1.0 https://github.com/baaivision/EVE
https://arxiv.org/abs/2406.11832

※:日本語への対応は不明

Multimodal Understanding と画像生成の統合モデル

単一のモデルで画像生成とImage Captioning、Visual Question Answering (VQA)が可能なモデル
※この記事では、Large Vision-Language Model(LVLM)を MLLM としていますが、こちらの統合モデルをMLLM(マルチモーダルLLM)と呼ぶ方もいるようです。

時期 開発者 モデル名 モデル 記事
プレスリリース
論文
2024年8月 Show Lab at National University of Singapore Show-o(※) https://huggingface.co/showlab/show-o https://github.com/showlab/Show-o
https://huggingface.co/spaces/showlab/Show-o
2025年 DeepSeek AI Janus Pro https://huggingface.co/deepseek-ai/Janus-Pro-7B https://github.com/deepseek-ai/Janus

※:日本語プロンプトは理解しているようですが、応答は英語で返ってきます。日本語テキストのOCRはハルシネーションします。現時点で私が試してみた限りでは、イラストや英文のOCRでもハルシネーションが多いようですが面白い取り組みだと思います

最後に

この記事に載っていないモデルで、日本語に対応している、商用利用もできる、というものを見つけた方(自薦他薦問わず歓迎)はご一報いただけると嬉しいです(あまり古いモデルを載せても活用機会が少ないと思いますので、2024年4月以降に登場したものだとなお嬉しいです)。

10
8
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
10
8

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?