2枚のソロ写真から自然な2人写真を作るとき、最初に壊れるのは何か

Posted at 2026-06-27

AIカップル写真を最初に見ると、「これはモデルの性能の問題だ」と考えがちです。

もちろんモデル性能は重要です。ただ、それだけで説明できない失敗が多いです。

実際に最初に壊れやすいのは、2枚の入力写真の前提条件です。片方は室内光、片方は屋外光。片方は顔が近く、片方は引き。片方は正面、片方は斜め。このズレが大きいほど、生成結果は「同じ世界にいる2人」に見えにくくなります。

つまり難しさは、モデル単体よりも「異なる2入力をどう1つの文脈にまとめるか」というプロダクト設計にあります。

必要になるのは、たとえば次のような判断です。

モデルが強くても、前処理やUXの設計が弱いと実利用では不安定になります。逆に言えば、このカテゴリは「画像生成プロダクト」でもあり、「入力条件を整理するプロダクト」でもあります。

AI Couple Photo でも、この部分を単なる前処理ではなく、体験の中心として考えるほうが重要だと感じています。