[翻訳] Zero-Shot Learning Through Cross-Modal Transfer

Last updated at 2025-03-11Posted at 2025-03-10

論文情報

論文名：Zero-Shot Learning Through Cross-Modal Transfer
公開年：2013年
DOI：https://doi.org/10.48550/arXiv.1301.3666

訓練データが存在しない画像内のオブジェクトを認識できるモデルを提案。
例えば、一度も猫の画像を学習したことがなくても、その画像が猫を示しているのか、あるいは犬や馬といった学習済みのクラスに属するのかを判別可能。

本論文の取り組みは、Palatucci らの研究に近い。

非常に少ない訓練データを用いて、物体クラスを学習することを指す。
本論文は、自然言語からのクロスモーダルな知識転移により、訓練データがなくても物体クラスを分類できる点が異なる。

あるドメイン（分野）には多くの訓練データがあるが、別のドメインにはほとんどないような状況で有用。

音声や映像、画像、テキストなど、複数のソースから情報を関連付けることができる。
Socher らは、単語と画像を共通の意味空間に投影し、注釈付けとセグメンテーションの分野においてSOTAを達成した。しかし、訓練データが若干量必要になる点がネック。

単語同士の類似性を捉える方法として、文脈内での他の単語との共起性を学習する手法がある。この手法は、様々な自然言語処理タスクで効果的であることが証明されている。

例えば Huang らは、Wikipedia のテキストを使用して、各単語がその文脈内で発生する可能性を予測することで単語ベクトルを学習する。
このモデルでは、各単語の周りのウィンドウ内の局所的な文脈と、グローバルな文書文脈の両方を使用する。

Huang らのモデルを活用し、画像ベクトルを50次元の単語の意味空間に投影した。

T-SNEを用いて、単語の意味空間を50次元→2次元へ圧縮して可視化した図。緑背景の文字が単語ベクトルの位置。
ほぼ全てのクラスは単語ベクトルの周りに密に分類されている一方で、Zero-Shot（猫とトラック）は近くにベクトルがない。しかし、意味的には類似したクラスに近い位置にある（猫は犬や馬に近く、車や船とは遠い）

提案モデルの特徴は以下のとおり。

単語同士の類似性を捉えた意味空間を使用することで、異なるモダリティ間で知識を転移するのに役立つ
外れ値検出で Manifold of known classes 上にあるかどうかを判定するフレームワークが、Zero-Shot 分類と既知の分類を1つのフレームワークに統合するのに役立つ