CLIP (Contrastive Language-Image Pre-Training)

Posted at 2026-01-23

title

Learning Transferable Visual Models From Natural Language Supervision

1. 概要

通常の教師あり画像分類タスクはデータ構造が厳密に決まっているため、異なるタスクには新規にデータセットが必要などの課題がある。インターネット上から4億枚の画像とキャプションのペアのデータを収集し、画像とキャプションが特徴空間上で近づくよう事前学習を行った。この事前学習モデルは複数の画像分類タスクにおいてZero-shotで高精度を示した。

2. 先行研究との差分

画像からN-gramを予測するvisual N-gramに比べzero-shot画像分類が高精度

3. 手法

事前学習にテキストと画像の特徴ベクトルのコサイン類似度が近くなるようにContrastive learningを導入
- キャプション自体の予測やキャプションのエンコードされた特徴ベクトルを予測するのに比べ高速に収束
- N個のペアに対し、Symmetric cross-entropy lossを使用
- 行列積を用いることで複数のペアを一度に計算
ネットワーク
- テキストエンコーダ：Transformer
- 画像：ResNet, ViT
大規模学習データセット：400Mの画像・キャプションのペアをインターネットから取得

4. 実験

3つの画像分類データセットに対するZero-shot transferでの精度評価
- 先行研究のvisual N-gramに対し、高精度
  - ImageNetでは76.2%
- プロンプトエンジニアリングによってImageNetで5%程度の精度改善を示した
27個の画像分類データセットに対して、Zero-shot transferでの精度評価
- フルでの教師あり学習を行ったベースラインとの精度比較：16/27のデータセットでベースラインを上回る精度
Few-shotでの精度比較
- CLIPの特徴ベクトルに対し、ロジスティック回帰モデルをfew-shotで学習させた場合、4-shotでZero-shotと同じ精度となった
- ImageNet事前学習モデルやSimCLR v2事前学習モデルのFew-shot学習に対し、ロジスティック回帰のほうが精度が高い

5. 議論

Zero-shotの場合、病理画像の分類タスクや衛星画像の分類タスク、車の車種分類のように事前学習に含まれない、専門性が高い・複雑・抽象的なタスクでは、精度劣化が見られた

6. 次に読むべき論文

論文情報・リンク

論文リンク

参考にした記事

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up