3
4

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

Vision-Language 系 マルチモーダルモデル一覧(原則日本語対応モデル限定)

Last updated at Posted at 2024-08-31

この記事は何?

napkin-selection.png

Vision(画像、動画)と Language(テキスト)にまがたるマルチモーダルモデルをトラッキングしていきます。原則として、日本語のテキストに対応した商用利用可能なオープンウェイトモデルを追っています。特別に目を引く技術が取り入れられたモデルであれば日本語未対応、商用不可でもリストに載せることがあるかもしれません。商用利用についてはモデルのライセンス条件やプレスリリース、ブログ記事などから著者が商用利用できそうと判断したものを載せていますが、商用利用と考えている場合にはご自身でもライセンス条件を確認してください。
このリストは、元々、Japanese Stable CLIP による画像の分類(a.k.a. 画像によるテキストの検索)、そして画像検索に向けて という記事の中に掲載していたものです。独立した記事にした方がわかりやすくて役に立つのではということで分離してメンテナンスしていこうというものです。

モデルの分類

モデルの分類の仕方は世の中で1つの方法に明確に定まっているわけではありませんので、私の主観で以下のように分類しています。

  • マルチモーダル埋め込みモデル:埋め込みモデル
  • Vision-Languageモデル:Image Captioning や Visual Question Answering (VQA) に対応したモデル
  • Encoder-Free Vision-Language モデル:デコーダーのみで構成されるモデル
  • Multimodal Understanding と画像生成の統合モデル

マルチモーダル埋め込みモデル

image.png

画像とテキストを同一の埋め込み空間にマッピングしてベクトル化(エンベディングの生成)が可能なモデル。モデル単体でも画像の分類タスクやベクトル検索に利用できる。

時期 開発者 モデル名 モデル 記事
プレスリリース
2023年11月 stability ai Japanese Stable CLIP https://huggingface.co/stabilityai/japanese-stable-clip-vit-l-16 https://ja.stability.ai/blog/japanese-stable-clip
2024年1月 リクルート japanese-clip-vit-b-32-roberta-base https://huggingface.co/recruit-jp/japanese-clip-vit-b-32-roberta-base https://blog.recruit.co.jp/data/articles/japanese-clip/
2024年5月 LINE clip-japanese-base https://huggingface.co/line-corporation/clip-japanese-base https://techblog.lycorp.co.jp/ja/20240514b
2024年11月 Jina AI Jina CLIP v2 https://huggingface.co/jinaai/jina-clip-v2 https://jina.ai/news/jina-clip-v2-multilingual-multimodal-embeddings-for-text-and-images/

Vision-Languageモデル(マルチモーダルLLM)

Image Captioning や Visual Question Answering (VQA)のようなタスクに利用可能な画像からテキストを生成するモデル。モデル単体でこれらのタスクを実現できるもの。

時期 開発者 モデル名 モデル 記事
プレスリリース
2023年11月 stability ai Japanese Stable VLM https://huggingface.co/stabilityai/japanese-stable-vlm https://ja.stability.ai/blog/japanese-stable-vlm
2024年1月 Haotian Liu, Chunyuan Li, Yuheng Li, Bo Li, Yuanhan Zhang, Sheng Shen, Yong Jae Lee LLaVA-NeXT https://github.com/haotian-liu/LLaVA/blob/main/docs/MODEL_ZOO.md https://github.com/LLaVA-VL/LLaVA-NeXT
2024年5月 openbmb MiniCPM-Llama3-V-2_5 https://huggingface.co/openbmb/MiniCPM-Llama3-V-2_5 https://github.com/OpenBMB/MiniCPM-V
https://unfoldai.com/minicpm-llama3-v-2-5-review/
2024年6月 CyberAgent llava-calm2-siglip https://huggingface.co/cyberagent/llava-calm2-siglip https://www.cyberagent.co.jp/news/detail/id=30344
2024年7月 InternLM InternLM-XComposer-2.5 https://github.com/InternLM/InternLM-XComposer https://github.com/InternLM/InternLM-XComposer
https://www.youtube.com/watch?v=8tYpiQNOJww
2024年8月 Sakana AI Llama-3-EvoVLM-JP-v2 https://huggingface.co/SakanaAI/Llama-3-EvoVLM-JP-v2 https://sakana.ai/evovlm-jp/
2024年8月 Axcxept co., ltd. Llama-3-EZO-VLM-1 https://huggingface.co/HODACHI/Llama-3-EZO-VLM-1 https://prtimes.jp/main/html/rd/p/000000006.000129878.html
2024年8月 ByteDance等 LLaVA-OneVision https://huggingface.co/collections/lmms-lab/llava-onevision-66a259c3526e15166d6bba37 https://llava-vl.github.io/blog/2024-08-05-llava-onevision/
https://arxiv.org/abs/2408.03326
https://huggingface.co/docs/transformers/main/en/model_doc/llava_onevision
2024年8月 Alibaba Cloud Qwen2-VL(※) https://huggingface.co/collections/Qwen/qwen2-vl-66cee7455501d7126940800d https://qwenlm.github.io/blog/qwen2-vl/
https://github.com/QwenLM/Qwen2-VL

※Qwen2 VL の検証記事を書きました↓

Encoder-Free Vision-Language モデル

最近の主要な LLM 同様にエンコーダーを持たずデコーダーのみで構成される Encoder-Free Vision-Language モデル。ビジョンエンコーダーで画像がばらばらのパッチに分解されたり、アスペクト比や解像度の調整のために情報が失われることがなくなり、ビジネスの世界で不可欠な図表や表の認識精度の向上に近い将来貢献してくれるのではないかと期待(妄想)しています。

時期 開発者 モデル名 モデル 記事
プレスリリース
論文
2024年6月 BAAI EVE(※) https://huggingface.co/BAAI/EVE-7B-v1.0 https://github.com/baaivision/EVE
https://arxiv.org/abs/2406.11832

※:日本語への対応は不明

Multimodal Understanding と画像生成の統合モデル

単一のモデルで画像生成とImage Captioning、Visual Question Answering (VQA)が可能なモデル

時期 開発者 モデル名 モデル 記事
プレスリリース
論文
2024年8月 Show Lab at National University of Singapore Show-o(※) https://huggingface.co/showlab/show-o https://github.com/showlab/Show-o
https://huggingface.co/spaces/showlab/Show-o

※:日本語プロンプトは理解しているようですが、応答は英語で返ってきます。日本語テキストのOCRはハルシネーションします。現時点で私が試してみた限りでは、イラストや英文のOCRでもハルシネーションが多いようですが面白い取り組みだと思います

最後に

この記事に載っていないモデルで、日本語に対応している、商用利用もできる、というものを見つけた方(自薦他薦問わず歓迎)はご一報いただけると嬉しいです(あまり古いモデルを載せても活用機会が少ないと思いますので、2024年4月以降に登場したものだとなお嬉しいです)。

3
4
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
3
4

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?