*本記事は作成中です.
本記事の目的
論文"MagicMix: Semantic Mixing with Diffusion Models"を数式などに深入りせずに紹介する事.
各種link
はじめに
本記事はBrainPad Advent Calendarの一環として書かせていただいております1.
私のQiita記事は一昨年,昨年の弊社Advent Calendar記事に引き続き3つ目となりました2.今回こそ3技術的な記事をと思い,先日弊社内で開催されている"論文読み会"4で発表した内容について簡単に紹介させていただきます5.
紹介させていただく論文は"MagicMix: Semantic Mixing with Diffusion Models"です.この論文はざっくばらんに言えば"画像中の物体A(意味A, 形A, 色A)を物体B(意味B, 形A, 色A)6に変換する手法"を提案しています(下記図はデモページより抜粋):
*間違いや解りにくい表現などが多く存在するかもしれませんがご容赦いただき,ご指摘いただけますと幸いです.また,私は文章を書くのが不得手なので,多くの箇所で箇条書きスタイルでの記述となる事もご容赦いただけますと幸いです.
概要(3行まとめ)
- 本論文では画像中の物体A(意味A, 形A, 色A)を物体B(意味B, 形A, 色A)に変換する"Semantic Mixing7"手法を提案している.
- Stable Diffusion8でも活用されているLatent Diffusion Model9の一部を変更している:
- 結果,元画像に映る物体Aの形や色の(雰囲気を保った)物体Bが映る新しい画像が生成できる.
Introduction
-
本論文では"スタイル変換(image->image)"や"複数物体の合成画像生成(text+text->image)"ではなく,画像又はテキストA,そしてテキストBを入力し,画像に映る物体又はテキストAで指定される物体の形や色の雰囲気を持ったテキストBで指定される物体の画像を生成する({(image or text A),text B}->image)タスクについて扱う.
- 本論文で提案する手法により"コーギーのデザインを持つコーヒーマシン","スイカのデザインを持つランプ","うさぎとトラの合成生物"などの画像が生成可能となる.
-
本論文で提案する手法は,Latent Diffusion Model12を基礎とし,これに若干の変更を加えた手法を用いている:
- Latent Diffusion ModelのDenoise処理において,初期段階では"レイアウトの復元"が行われ,段々と"コンテンツの復元"が行われることに注目し,コンテンツの復元段階で変更したいコンテンツの情報を加えることで提案タスク(Semantic Mixing)を実現した.
Related Works
- 本論文に関係する研究として,Diffusion Model,画像生成,そして画像編集が挙げられる.特に画像編集のPrompt補間について少しだけ紹介しておく:
- Prompt補間はその名の通り,2つのPromptを補間する技術のことで,これはLatent Space上での距離が近い画像に対してはうまく機能するが,そうでない場合はその限りではない.本論文が提案する方法では,Latent Space上の距離の如何に関わらずうまく機能する.
===== ここから先作成中です...(体調回復し次第完成版を上げさせていただきます...少々お待ちください...) =====
Method
PRELIMINARIES ON DIFFUSION MODELS
SEMANTIC MIXING WITH DIFFUSION MODELS
Varying time-step for content injection
Linear interpolation
Image-text cross-attention re-weighting
Application
SEMANTIC STYLE TRANSFER
-
体調を崩し遅刻してしまいました.申し訳ありませんでした. ↩
-
本当は定期的に備忘録として記事を書きたいのですが,中々筆が進まず,Advent Calendarが盛大に背中を押してくれてやっと1年に1本書けている状況です. ↩
-
過去の2本はキャリア的な記事で技術的な記事ではありませんでした. ↩
-
"論文読み会"は有志のメンバーが持ち回りで好きな論文について紹介する勉強会です. ↩
-
BrainPad Advent Calendar 2日目の記事も"論文読み会"で発表されていた内容です. ↩
-
正確には形A,色Aというより"形Aに近い形,色Aに近い色"と言うべきでしょうが簡単のためこのように記載しております. ↩
-
"意味混合"とでも訳すべきでしょうか. ↩
-
Stable DiffusionについてはStable Diffusion を基礎から理解したい人向け論文攻略ガイド【無料記事】や世界に衝撃を与えた画像生成AI「Stable Diffusion」を徹底解説!などが参考になるかもしれません. ↩
-
元々のDiffusion Modelでは画像データそのものに対しDiffusion/Denoise処理を施していましたが,Latent Diffusion ModelではLatent Spaseに対しDiffusion/Denoise処理を施しています. ↩
-
"潜在空間".潜在空間とはデータを圧縮し,意味の近さを反映したようなベクトル空間 ↩
-
Stable Diffusionでは入力画像のキャプション情報を利用し復元を行います. ↩
-
下記図はHigh-Resolution Image Synthesis with Latent Diffusion Modelsより抜粋. ↩