論文紹介："MagicMix: Semantic Mixing with Diffusion Models"

Last updated at 2024-12-06Posted at 2022-12-25

本記事の目的

論文"MagicMix: Semantic Mixing with Diffusion Models"を~~数式などに深入りせずに~~３行で紹介する事.

各種link

はじめに

本記事はBrainPad Advent Calendarの一環として書かせていただいております¹.

私のQiita記事は一昨年,昨年の弊社Advent Calendar記事に引き続き3つ目となりました².今回こそ³技術的な記事をと思い,先日弊社内で開催されている"論文読み会"⁴で発表した内容について簡単に紹介させていただきます⁵.

紹介させていただく論文は"MagicMix: Semantic Mixing with Diffusion Models"です.この論文はざっくばらんに言えば"画像中の物体A（意味A, 形A, 色A）を物体B（意味B, 形A, 色A）⁶に変換する手法"を提案しています(下記図はデモページより抜粋):

概要(3行まとめ)

本論文では画像中の物体A（意味A, 形A, 色A）を物体B（意味B, 形A, 色A）に変換する"Semantic Mixing⁷"手法を提案している.
Stable Diffusion⁸でも活用されているLatent Diffusion Model⁹の一部を変更している：
- 元画像をVariational Auto EncoderのEncoderでLatent Space¹⁰に写像しDiffusion ProcessでNoiseを加える.
- Denoiserで復元する際,意味Bの情報を利用し復元を行う¹¹.
結果,元画像に映る物体Aの形や色の(雰囲気を保った)物体Bが映る新しい画像が生成できる.

体調を崩し遅刻してしまいました.申し訳ありませんでした. ↩
本当は定期的に備忘録として記事を書きたいのですが,中々筆が進まず,Advent Calendarが盛大に背中を押してくれてやっと1年に1本書けている状況です. ↩
過去の2本はキャリア的な記事で技術的な記事ではありませんでした. ↩
"論文読み会"は有志のメンバーが持ち回りで好きな論文について紹介する勉強会です. ↩
BrainPad Advent Calendar 2日目の記事も"論文読み会"で発表されていた内容です. ↩
正確には形A,色Aというより"形Aに近い形,色Aに近い色"と言うべきでしょうが簡単のためこのように記載しております. ↩
"意味混合"とでも訳すべきでしょうか. ↩
Stable DiffusionについてはStable Diffusion を基礎から理解したい人向け論文攻略ガイド【無料記事】や世界に衝撃を与えた画像生成AI「Stable Diffusion」を徹底解説！などが参考になるかもしれません. ↩
元々のDiffusion Modelでは画像データそのものに対しDiffusion/Denoise処理を施していましたが,Latent Diffusion ModelではLatent Spaseに対しDiffusion/Denoise処理を施しています. ↩
"潜在空間".潜在空間とはデータを圧縮し,意味の近さを反映したようなベクトル空間 ↩
Stable Diffusionでは入力画像のキャプション情報を利用し復元を行います. ↩

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up