画像生成AI界隈、StableDiffusionからNovelAIに至るまで学習過程がだいぶアングラなのだが、それを差し引いてもエンジニア的・技術的には物凄く面白い流れになってきている。規模は全世界、まさにビッグウェーブだ。
一番面白いと思ったのが「仕様の宝探し」について。
「仕様の宝探し」とプロンプト・ゴールドラッシュ
現状、画像生成AIはたった二ヶ月の間により高レベルのツールが公開され続けている。つまり、体感としては「JavaScriptで主流のライブラリとしてjQueryが出たと思ったら二ヶ月でReactが誕生し、そちらが主流になる」ような感じだ。
大袈裟かもしれないが、そのぐらいの激変がある。
そのため当然、ライブラリの仕様理解など人間が追い着くはずもない。
「使い方が十分に研究され普及する前に次が出てしまう」のだ。
しかも恐ろしいことに、AIが作るライブラリにドキュメントはない。
ブラックボックスAIが何を考えているかは人間にはわからない。仕様をわかりやすく教えてくれる、開発者や有識者などいない。「AIに学習させた開発者」はAIがどうすれば言うことを聞いてくれるのか、本当の意味ではほとんど知らない。
なので、「仕様の宝探し」が起きている。
昨日までITエンジニアと何の関係もなかった人々が、『呪文』と称してプロンプトの組み合わせや強調パターンを昼夜を問わず試行錯誤している。そしてAIの癖を読み解くのだ。とあるディープなユーザーは「仕事中にもプロンプトを呟きそうになる」、「呪文を見れば生成される画像のイメージが見える」とすら語っていた。
これはもう、コードリーディングだろう。
言語仕様を一行一行体当たりでコーディング&実行し続けて学んでいくエンジニアの姿にとてもよく似ている。
世界中の人々がNovelAIで生成した画像の枚数は、この一週間で3000万枚に達したそうだ。大人から子供、エリートからニートまであらゆるグローバリゼーションの渦中にいるユーザー達がキーボードを叩き、画像を読み込ませ、修正やシード値、画像サイズとプロンプトの影響の法則性を掘り起こし、一斉に幅広く共有している。
GitHubで優れたコードやリポジトリが賞賛されるように、優れたプロンプトの発見者は大勢から賞賛される。彼が掘り起こした仕様はあらゆる実装者が活かせるからだ。
プロンプトと生成画像の実例
新技術は常にエロと軍事で発展する。 生成AIもその例に漏れず初期の利用法もアダルトが中心のためQiitaに引用できるケースは少ないが、その範囲では以下のような例がある。『ポストアポカリプス少女』をテーマとしたプロンプトだ。
{{{masterpiece}}},{{{{{{collapse}}}}}},{glitch},closed eyes,
{{{{{A girl_vanish into particles}}}}},{idolmaster}, particle,
disappearing gradually,black hair, very short hair,
:(, wounded from explosion, {{aiming}}, firing, muzzle flash,
Her mechanical arm is half destroye,
The girl is looking forward with tears in her eyes,smile,crying'
このプロンプトを使って画像を生成すると、毎回異なる画像が生成される。そして「ガチャを回す」ことで大量に生成した画像から特に優れた一枚を見つけたり、大量の画像をそのまま活用したりすることができる。
解剖学的バグは生まれるが、それはプロンプトの内容次第であり体感5%~20%ほどに収まる。100%狙ってバグった画像を生成する呪文も存在する。
画像投稿サイト『Danbooru』のタグ付けをベースとして、NovelAI自身が解釈したタグを付与してパラメータに反映しているという。
拡散モデルとファインチューニングでここまで到達したこと、そしてその速度やこれまで困難と言われてきたイラストという分野であったことには驚かざるを得ない。(まさに「技術的には可能」であったわけだ、十分な学習リソースさえあれば)
その他、ハードウェア方面ではローカルな実機で動かすためのGPU性能の議論と報告が交わされたり、経済的社会的側面でも大手投稿・販売サイト上で大きな変化が見られるがここでは割愛する。
ともあれ一人のエンジニアとして、このインターネット黎明期のようなアングラ感、数時間で古いニュースとなっていく加速度的進歩、大勢が参加する濁流のような時代の変化は最前線で経験しておく価値があるだけのものだと感じている。
もちろん、そう思わない人も多いだろう。「ただのお遊び」「そんなものは技術じゃない」「クリーンでなければ意味がない」など。
ただ、そうでないギークなエンジニアもきっとQiitaのどこかには一人くらいいるのではないか。そう思ったので、こうして共有記事として残しておく。
Midjourneyの登場から約二ヶ月、NovelAIの登場からおよそ一週間。
この先、もはや一日たりとも何が起きるかわからない画像生成AI界隈のゴールドラッシュを、今後も注視しつつ参加していきたい。
2022/10/16追記:
わりと読んで頂いているようなので、その後の流れなど少し追記。まず市場形成について。
記事執筆時点で、私自身も収益化に成功している。誰でもできる手順にまで標準化済みなので、市場としてもAI創作、あるいはAI利用はほぼ確実に巨大市場になるだろうと見込んでいる。AI人材とは「AI開発者」に加えて、「AIオペレーター」を指すようになる。事務職募集:PCとWordが使える人、ぐらいの気軽さで求人が出るようになるのでは。ちなみにスタートアップで既にプロンプトエンジニアという職種で求人を出している会社もあった。
また、Googleトレンドで確認すると世界の検索数の99%を中国ユーザーが占めている。
13日頃から中国で話題になったようで、中国語版クローンサイトも作られている。その結果なのか、14日から15日にかけて鯖落ちが発生しタイムアウトが頻発、ほぼ利用不能に。16日朝には解消したが、その過程でNAILeakと呼ばれる流出版のローカル利用者が急増した。導入手順も簡略化され、ナレッジやQ&Aも集まった。
ColabなんてGoogleの中ではWeb上でPythonを動かしたいエンジニア以外使わない非一般ユーザ向けサービスだったはずだが、一気に普及している。まぁこれはStableDiffusionの手順に含まれているので一ヶ月以上前からだが。
「人生で初めてgitを触る」という非エンジニア層がgit pullで検索すると概念から説明されて困る、GitHub勢ってなんだかよくわからないが凄い、などと言っているのを見るのは感慨深い。
生成AIは既にクリエイティビティを刺激し逆輸入で絵に興味を持つユーザーもよく見られるが、ハードやソフトの先端技術に触れたことでエンジニア業界に入るユーザーも増えるのではないか。
2022/10/17追記:
第一報程度だが、文明開化が起きた。 つまりグローバル化した。中国語圏何百万人だか何千万人だかが鯖落ちの要因と なっていたが、同時に彼らの下で飛躍的なプロンプト研究が進んでいた。(元々英語圏では本家「NovelAI」ディスコードが中心地となるなど
言語圏別の研究となっている状況は知られていたが)
その研究成果を、台湾と繋がった日本人ユーザーが確保した。
そのファイルの名は『元素法典』。PDFで125MBという巨大な検証マニュアルである。
その一端には通常のかなり長いプロンプトの十倍以上にも及ぶ長大なネガティブプロンプト群がある。どうやら大勢の投票・大喜利形式で排除すべき要素を一覧化して作成されたようだ。
その結果、生成のクオリティは「神絵師」級に達したと評価された。少なくとも一定のハイグレード化が確認された。手指が苦手だった従来版の課題も大きく克服された。
AI開発側ではなく、ユーザ側の試行錯誤によってここまで品質向上が可能なこと、グローバルな研究状況の周知など深夜0時から翌朝にかけてにも関わらず状況は大きく動いたと言える。