Edited at

情報科学におけるファッション研究の新潮流

深層学習によって画像認識技術は飛躍的に進歩しており、ファッション領域への応用事例も多数発表されてきました。衣服領域のセグメンテーションやファッションスタイルの分類など、典型的な画像認識の問題として解ける研究は既にやり尽くされた感があります。

この記事では、ファッションにおける基本的な画像認識が解決して以降の、新しい研究の潮流を独断と偏見で紹介します。キーワードは体型、生成、集合です。


体型の考慮

画像認識や人体形状モデルによって、人の体型を推定する技術が盛んに発表されるようになりました。一枚の着衣画像から体型の3Dモデルを構成するなど、今後ますます体型の推定が手軽かつ高精度になると考えられます。これを受け、体型とファッションの関係を考察した研究が出始めています。

例えば、Max Planck研究所のSattarらは、ネット上のファッションスナップを収集し、そこに写った人の体型を推定する手法を提案しました。さらに、推定した体型とよく着られている衣服カテゴリとの相関を分析しています1 (図は参考文献1から引用)。

スクリーンショット 2018-12-17 19.07.24.png

Hidayatiらの研究では、まず体型と衣服をそれぞれクラスターに分けます。そして体型クラスタで条件づけられた衣服特徴の分布を学習することによって、体型を入力とした衣服の推薦手法を提案しています2(図は参考文献2から引用)。

スクリーンショット 2018-12-17 20.59.47.png

ファッションモデルのデータセットを利用しているため体型・衣服ともに特殊なものであり、そのまま一般の人々には適用できないと思います。しかしこの研究が発展していけば、ユーザー属性や服のデザインだけでなく、体型まで考慮した衣服の推薦が可能になると期待できます。


試着イメージ・デザインの生成

オンラインショッピングにおいて試着イメージの生成は重要なテーマであり、盛んに研究が行われています。

Wangらは、CP-VTONという着せ替えを行うネットワークを提案しました3。これは、「服の商品画像」と「人間の着衣画像(商品画像とは別の服を着ている)」とをペアで入力すると、その人間が商品画像の服を着ているかのような画像を生成するネットワークです(画像は参考文献3から編集して引用)。

名称未設定2.001.jpeg

これは商品画像を体型・姿勢に合わせて変形するGeometric Matching Moduleと、変形された商品画像と人間の画像を合成するTry-on Moduleの2つからできています(再び参考文献3から引用)。人体や衣服の3Dモデルを使用しないところがポイントです。

スクリーンショット 2018-12-17 22.23.59.png

上の画像の通り結果はかなり良好に見えますが、今のところ生成する画像がTシャツ1枚の着用画像に限られているため、より複雑な形状の衣服や、複数衣服の同時着せ替えにも対応していくことが望まれます。

また、衣服デザインの自動生成も試みられています。近年、機械学習で生成された絵画が高額で落札されたり、AIが書いた小説が作家新人賞の選考を通過したりするなど、機械学習を創作に応用する試みの1つと言えます。

今年のECCVでは、衣服のデザインをするコンペティションが開催されました。このコンペでは、衣服の特徴を説明したテキストを入力として、その説明に合うようなデザインの衣服画像を生成する(つまりtext-to-image)性能が競われました。以下の画像は、入力テキストと優勝チームが生成した服画像です4

DnSdLgEW4AAyF8d.jpg

なお、衣服デザインの手法については2日前の記事でも紹介しているので、ご興味のある方はそちらもご覧ください。


単体から集合へ

ファッションコーディネートとは、すなわち{トップス, ボトムス, シューズ, バッグ, ...}のような、アイテムの集合です。また、上着やアクセサリーの着用によってコーディネートに含まれる要素の数は変動します。したがって、コーディネートを推薦したり採点したりするためには、要素の数が任意の集合を入力とした機械学習が必要になります。自然言語などの系列と異なり、入力が集合の場合は、出力が入力の順序に依存して欲しくありません。

Hanらは、アイテム画像からCNNで抽出された特徴量を、LSTMを用いてモデル化しています5(画像は参考文献5から引用)。

スクリーンショット 2018-12-17 23.15.40.png

LSTMによって可変長の入力を可能にしていますが、系列としてモデル化しているため出力が入力の順序に依存してしまいます。

一方で、集合を系列として扱うのではなく、ストレートに集合を入力として扱う機械学習の研究も登場し始めました6 7 8

Zahheerらは、集合を入力とした予測器が満たすべき性質としてPermutation InvariantとPermutation equivalentを提唱し、それらの性質を満たすニューラルネットのレイヤー構造を示しました。今後、このような集合を扱うモデルをファッションに適用した例が出てくるのだろうと予想します。集合を扱うモデルについてはこちらの記事でも紹介しています。


おわりに

ファッション研究の新しい潮流を個人的な視点から紹介しました。今回取り上げなかった中にも面白そうな研究テーマは多数あり、今後も機械学習のファッションへの応用事例はたくさん出てくると思います。





  1. Hosnieh Sattar, Gerard Pons-Moll, Mario Fritz, "Fashion is Taking Shape: Understanding Clothing Preference Based on Body Shape From Online Sources," in Proc. ECCV Workshop Woman in Computer Vision 2018. https://arxiv.org/abs/1807.03235  



  2. Shintami Chusnul Hidayati, Cheng-Chun Hsu, Yu-Ting Chang, Kai-Lung Hua, Jianlong Fu, Wen-Huang Cheng, "What dress fits me best? Fashion Recommendation on the Clothing Style for Personal Body Shape," in Proc. ACMM 2018, 2018 https://www.microsoft.com/en-us/research/uploads/prod/2018/10/mm18-fasion.pdf 



  3. Bochao Wang, Huabin Zheng, Xiaodan Liang, Yimin Chen, Liang Lin, and Meng Yang, "Toward Characteristic-Preserving Image-based Virtual Try-On Network," in Proc. ECCV 2018 http://openaccess.thecvf.com/content_ECCV_2018/papers/Bochao_Wang_Toward_Characteristic-Preserving_Image-based_ECCV_2018_paper.pdf 



  4. https://twitter.com/negar_rz/status/1041632692259962880 



  5. Xintong Han, Zuxuan Wu, Yu-Gang Jiang, Larry S. Davis, "Learning Fashion Compatibility with Bidirectional LSTMs" in Proc ACMM 2017 https://dl.acm.org/citation.cfm?id=3123266.3123394 



  6. Manzil Zaheer, Satwik Kottur, Siamak Ravanbakhsh, Barnabas Poczos, Ruslan Salakhutdinov, Alexander Smola, "Deep Sets", in Proc NIPS 2017 https://papers.nips.cc/paper/6931-deep-sets 



  7. Set Transformer, 2018 https://openreview.net/pdf?id=Hkgnii09Ym 



  8. Masataro Asai, "Set Cross Entropy: Likelihood-based Permutation Invariant Loss Function for Probability Distributions", 2018 https://arxiv.org/pdf/1812.01217.pdf