この記事は何?
Vision(画像、動画)と Language(テキスト)にまがたるマルチモーダルモデルをトラッキングしていきます。原則として、日本語のテキストに対応した商用利用可能なオープンウェイトモデルを追っています。特別に目を引く技術が取り入れられたモデルであれば日本語未対応、商用不可でもリストに載せることがあるかもしれません。商用利用についてはモデルのライセンス条件やプレスリリース、ブログ記事などから著者が商用利用できそうと判断したものを載せていますが、商用利用と考えている場合にはご自身でもライセンス条件を確認してください。
このリストは、元々、Japanese Stable CLIP による画像の分類(a.k.a. 画像によるテキストの検索)、そして画像検索に向けて という記事の中に掲載していたものです。独立した記事にした方がわかりやすくて役に立つのではということで分離してメンテナンスしていこうというものです。
モデルの分類
モデルの分類の仕方は世の中で1つの方法に明確に定まっているわけではありませんので、私の主観で以下のように分類しています。
- マルチモーダル埋め込みモデル:埋め込みモデル
- Vision-Languageモデル:Image Captioning や Visual Question Answering (VQA) に対応したモデル
- Encoder-Free Vision-Language モデル:デコーダーのみで構成されるモデル
- Multimodal Understanding と画像生成の統合モデル
マルチモーダル埋め込みモデル
画像とテキストを同一の埋め込み空間にマッピングしてベクトル化(エンベディングの生成)が可能なモデル。モデル単体でも画像の分類タスクやベクトル検索に利用できる。
時期 | 開発者 | モデル名 | モデル | 記事 プレスリリース |
---|---|---|---|---|
2023年11月 | stability ai | Japanese Stable CLIP | https://huggingface.co/stabilityai/japanese-stable-clip-vit-l-16 | https://ja.stability.ai/blog/japanese-stable-clip |
2024年1月 | リクルート | japanese-clip-vit-b-32-roberta-base | https://huggingface.co/recruit-jp/japanese-clip-vit-b-32-roberta-base | https://blog.recruit.co.jp/data/articles/japanese-clip/ |
2024年5月 | LINE | clip-japanese-base | https://huggingface.co/line-corporation/clip-japanese-base | https://techblog.lycorp.co.jp/ja/20240514b |
2024年11月 | Jina AI | Jina CLIP v2 | https://huggingface.co/jinaai/jina-clip-v2 | https://jina.ai/news/jina-clip-v2-multilingual-multimodal-embeddings-for-text-and-images/ |
Vision-Languageモデル(マルチモーダルLLM)
Image Captioning や Visual Question Answering (VQA)のようなタスクに利用可能な画像からテキストを生成するモデル。モデル単体でこれらのタスクを実現できるもの。
※Qwen2 VL の検証記事を書きました↓
Encoder-Free Vision-Language モデル
最近の主要な LLM 同様にエンコーダーを持たずデコーダーのみで構成される Encoder-Free Vision-Language モデル。ビジョンエンコーダーで画像がばらばらのパッチに分解されたり、アスペクト比や解像度の調整のために情報が失われることがなくなり、ビジネスの世界で不可欠な図表や表の認識精度の向上に近い将来貢献してくれるのではないかと期待(妄想)しています。
時期 | 開発者 | モデル名 | モデル | 記事 プレスリリース 論文 |
---|---|---|---|---|
2024年6月 | BAAI | EVE(※) | https://huggingface.co/BAAI/EVE-7B-v1.0 |
https://github.com/baaivision/EVE https://arxiv.org/abs/2406.11832 |
※:日本語への対応は不明
Multimodal Understanding と画像生成の統合モデル
単一のモデルで画像生成とImage Captioning、Visual Question Answering (VQA)が可能なモデル
時期 | 開発者 | モデル名 | モデル | 記事 プレスリリース 論文 |
---|---|---|---|---|
2024年8月 | Show Lab at National University of Singapore | Show-o(※) | https://huggingface.co/showlab/show-o |
https://github.com/showlab/Show-o https://huggingface.co/spaces/showlab/Show-o |
※:日本語プロンプトは理解しているようですが、応答は英語で返ってきます。日本語テキストのOCRはハルシネーションします。現時点で私が試してみた限りでは、イラストや英文のOCRでもハルシネーションが多いようですが面白い取り組みだと思います
最後に
この記事に載っていないモデルで、日本語に対応している、商用利用もできる、というものを見つけた方(自薦他薦問わず歓迎)はご一報いただけると嬉しいです(あまり古いモデルを載せても活用機会が少ないと思いますので、2024年4月以降に登場したものだとなお嬉しいです)。