2023/11頃に遊んだネタ供養
構成
- StableDiffusion
- luosiallen/latent-consistency-model: Latent Consistency Models: Synthesizing High-Resolution Images with Few-Step Inference
- radames/Real-Time-Latent-Consistency-Model: Demo showcasing ~real-time Latent Consistency Model pipeline with Diffusers and a MJPEG stream server
LCMトハ
StableDiffusionで画像を生成するのに32ステップくらいで1分とかかかるのが普通のところ、1~4ステップで、しかも爆速で生成しちゃうよ!という素敵技術
RealTime LCMトハ
そんな爆速で生成できるなら、カメラキャプチャからリアルタイムでレンダリングできるくね??という発想に基づいた素敵技術
とりあえずRealTime LCMのデフォモデル
めっちゃ自然に追従する。
バックエンドはawsのGPU積んでるEC2とか使ってた気がする。(既に忘れた)
2023/11月頭頃に遊んだやつ供養。
— シュレディンガーのナツさん (@natsu_san) March 9, 2024
RealTimeLCMでリアルタイム美少女になってみた。 pic.twitter.com/CoHfjo7MtN
モデル差し替え、年齢性別変更
モデル差し替え版。アニメ系にしたら、顔のバランスが合わずちょっと不気味の谷。性別とか年齢とか弄って遊んでる。 pic.twitter.com/msMfnCvBEl
— シュレディンガーのナツさん (@natsu_san) March 9, 2024
ControlNetで人外になろうぜ!
CrucibleAI/ControlNetMediaPipeFace · Hugging Face
どうしても🐱になりたかったので、Control Net使って頑張ったが、StableDiffusionがケモナーになりきれなかったやつ。 pic.twitter.com/Dc0z662uIj
— シュレディンガーのナツさん (@natsu_san) March 9, 2024
要改善ポイント
顔(キャラ)のブレが大きい→ControlNetで一枚絵を渡せば安定すると思う。
アニメ系の顔になりきれない(バランスが合わない)→モデル選択+ControlNetでどうにかなるとおもう
とか言ってたら、翌週にこんなのが出たので、まぁ、どうでもいいですね。
Microsoft、テキストの内容を実写アバターに話させるツールを発表。リアルタイムに対話できるボットアバターも可能
zhoudaquan/ChatAnything: Official Repo for the Paper: CHATANYTHING: FACETIME CHAT WITH LLM-ENHANCED PERSONAS
関連技術
Animate Anyone
一枚絵+モーション検出でぬるぬる動かすやつ
SD-turboで毎秒100枚以上の画像を生成できるシステム「StreamDiffusion」
ConsiStory
LoRAとかなしで一貫性のあるキャラクターとかを生成するよ、というやつ
InstantID/InstantID: InstantID : Zero-shot Identity-Preserving Generation in Seconds 🔥
参照画像1枚で、一貫性のある画像を生成するよーってやつ
結論
なりたい姿になれる!のコストがめっちゃ下がるの嬉しい。