研究の背景と目的
Disentangled Representation Learning (DRL)は、画像データから潜在的な要因を分離し、意味のある解釈可能な潜在表現を学習するアプローチです。近年、DenoiSing Diffusion Probabilistic Model (DDPM)を用いたDRLの手法として「DisDiff」が提案されました。DisDiffは教師なし学習によって画像の潜在要因を分離することができますが、学習した潜在空間が具体的に何を表現しているかが解釈できないという課題がありました。
この研究では、元論文で補遺にのみ触れられていたCLIPモデルを接続したDiSDiff (CLIP-DisDiff)の実装と、実際の衣服データセットへの適用を行い、その実用性を検証しています。
DisDiffの概要と課題
DisDiffは事前学習済みのDDPMモデルを用いて、教師なしでデータの背後にある要因のDRLを学習し、それぞれの要因に条件付けされた分離された勾配場を学習します。この手法は以下の利点があります:
- 画像データの内在的な意味的要因を自動的に発見し、教師なしで画像操作が可能
- 高品質な画像生成能力を持つDDPMの特性を活かせる
しかし、教師なし学習であるため、学習した潜在空間が何を表現しているのかが人間には解釈できない場合があるという課題がありました。
CLIP-DisDiffの導入
元論文では補遺にCLIPを接続したアーキテクチャと結果が示されていましたが、目的関数の定式化や実装の詳細は公開されていませんでした。本研究では:
- CLIP-DisDiffの目的関数を新たに定式化
- DisDiffのソースコードを拡張してCLIP接続の実装
- 衣服データセットに適用して実用性を検証
CLIPは画像とテキストを対応付ける事前学習済みのモデルで、これを活用することで潜在空間に人間が解釈可能な属性を割り当てることができます。
主な相違点と実装上の工夫
DisDiffとCLIP-DisDiffの主な相違点:
- DisDiffでは元画像をエンコードして潜在表現を得るのに対し、CLIP-DisDiffでは属性語をテキストエンコーダーに入力
- DisDiffでは潜在空間そのものが学習されるが、CLIP-DisDiffではCLIPの潜在空間をそのまま利用し、デコーダーのみを学習
- DisDiffではもつれが解かれた潜在空間が得られるが、CLIP-DisDiffでは事前定義された属性に対応する勾配を学習
実装では特に以下を工夫:
- CLIPのテキストエンコーダーとイメージエンコーダーを適切に組み込んだアーキテクチャ設計
- 属性操作と部分条件付きサンプリングのための生成プロセスの実装
実験方法
衣服データセットに対してCLIP-DisDiffを適用し、以下の属性に関する操作を試みました:
- 素材(cotton, leather, laceなど)
- 色(black, blue, redなど)
- ディテール&シルエット(A-line, hoodie, pocketなど)
- テクスチャー(smooth, soft, thickなど)
- ブランド
- カテゴリ(dress, sweatshirt, blousonnなど)
- 状態(中古、新品など)
前処理として、各商品の説明文からLLMを用いて属性を抽出し、CLIPの入力として使用しました。
結果と考察
実験結果からは以下のことがわかりました:
- 「色」の属性については比較的良好な結果が得られ、意図した色への変換が可能
- 「カテゴリ」や「ディテール&シルエット」においても部分的に成功
- 「素材」や「テクスチャー」は画像サイズが小さいため、十分な学習ができていない可能性
- 「ブランド」はテキスト情報だけでは捉えにくい属性であり、結果は限定的
課題と今後の展望
-
CLIPのファッションデータへの適合度向上
- ファインチューニング済みのFashionCLIPなどの使用を検討
-
テキストと画像データの質の向上
- より精度の高い属性抽出
- 画像サイズの拡大
-
計算リソースの強化
- より多くのパラメータを持つモデルでの学習
まとめ
本研究では、DisDiffにCLIPを接続したCLIP-DisDiffモデルの目的関数を定式化し、実装して衣服データセットに適用しました。その結果、一部の属性(特に「色」)については意図した操作が可能であることを示しましたが、全体としてはまだ改善の余地があります。今後は、ファッション特化型のCLIPモデル採用、データ品質の向上、計算リソースの強化などにより、実用性の向上が期待されます。
キーワード: Disentangled Representation Learning (DRL), DisDiff, DDPM, CLIP, 属性操作, 潜在空間