More than 1 year has passed since last update.

matsuri technologies 株式会社Advent Calendar 2022

『おっさん美少女を描いて！』を；実現したい！

Last updated at 2022-12-19Posted at 2022-12-19

どうも、おっさんです。
うちの GitHub Copilot の口が悪すぎると話題に！

さて、今日は Whisper + Stable Diffusion で永遠の謎『おっさん美少女』を AI に描いて頂こうと思います。
髪の毛は永遠の 0 です。

紆余曲折

IntelliJ の PyCharm の YouTube ライブで Jina Cloud が取り上げられていました。
『NewYork にいる Spiderman を描いて！』をしていました。

人権がないんです。
家の GPU。

1-2 か月くらい前にかなり Whisper+Stable Diffusion が流行っていたのでやってみたいなという気持ちがありましたが。
Jina Cloud で無料で試せそうだったのでやってみようとして失敗しました...

YouTube のコードは、GitHub 上に公開されいるのですが手順を踏んでも動きません。(2021/12/20)

そもそも GPU が足りないので、ローカルで動かすことはできませんでした。

しかし、学習サイズ "medium" や "small" くらいに落とすと動きました。

ここまでくるとボロボロです。
基本的にコードはすべて動きません。

録音したファイルがなぜかグローバルに入っていることになっている...?
ここら辺は、ffmpeg 周りのライブラリ問題みたい...

sudo apt install ffmpeg で解決しましが、ui.py が動かない...
grpc周りの接続が、Jina 側に飛ばせない....

まだまだプラットフォームが未熟で開発中のようで、基本的にコードはすべて動きません。
GPU 強者や、Jina Cloud 詳しい方で成功した人がいれば教えてください。

ここら辺はデフォルトのモデルです。
Whisper の制度はかなり高いです。(漢字は描いての方を想定していましたが)
正直、日<->英の翻訳から違います。

おっさん美少女を書いて <-> Drawing a middle-aged man and a beautiful girl という感じです。

無理やり英語を直しても、ダメそうです。
モデルを変えないといけません。

@npaka123 さんが書かれている本です。
この本は理論的なことをかなり基礎から説明しているガチ勢向けの本だと思っています。
おすすめです。

最近の Stable Diffusion モデルを Colab やサンプルコード付きで解説してあります。
理論面も軽く触れています。
個人的に、クリエイターが AI とどのように折り合いをつけるかに章がさかれていて凄く面白かったです。

そもそも、機械学習全然詳しくないのでここら辺をちらちら見ながらやっています。

年末年始で自分のモデルを作っていこうという気持ち

最近飼っているうちの AI 達です。

高い...
5 年後には自分の仕事なくなって欲しいですね。
Whisper + ChatGPT とか組み合わせ無限大！という感じですね。

年末で 10 連飲み会が発生しているので美少女に救われたい。
おっさんは帰れ！