はじめに
どうも医者やめ太郎のikoraです
もうすぐ医者辞めて1年になるので記事をしたためることにしました
簡単な自己紹介
医者です
今は生成AIエンジニア?やってます
専門は画像生成です
他もBackendやちょこっとインフラ周りなどぼちぼちやってます
余暇にLangChain × Elasticsearch(Vector store)で医療版ChatGPT(RAG)とか作ったりしてLLMにも興味あります
結論
なんか画像生成のモデル作ってたら日本でも指折り?の性能だったらしく、X(当時はまだTwitter)でヘッドハンティングされました
小生、医者だからやだー、まだキャリア積みたいのー。と若干の駄々をこねましたが相手がガチだったので面白そうで医者やめてきました
経緯
経緯もクソもないのですが、ざっくり時系列をおまとめ。
2022年8月:黒船襲来、Stable diffusionが公開
2022年9月:Macでも画像生成が可能になり没頭
2022年11月:二度目の黒船、ChatGPTサービス開始
2022年12月:ローカル環境で限界を感じ、Paperspace(クラウドGPU)導入
2023年1月初旬:複数の訓練・マージモデルを発表(5ちゃんねるにて)
2023年1月中旬:それまでにない圧倒的なクオリティだったためか掲示板で”リアルモデルニキ”と呼ばれ始める(自分が降臨して画像貼っていくとめちゃくちゃ反響あって嬉しかったです)
2023年2月:複数の会社・VCから業務提携、カジュアルミーティングが続く日々
2023年3月初旬:株式会社Awwと次世代バーチャルヒューマンRiaのLoRA制作
2023年3月中旬:SD1.5リアルモデル: longisland3.safetensors 完成(大規模訓練モデル)
2023年3月下旬:面談していた会社の一つから「うちに来ないか?」とお誘い
2023年4月:医者やめて転職することを決断、残りの有給を取得し準備
2023年5月:JOIN
主にやってること
画像生成
基本的には画像生成ワークフローの構築です。
特に2023年は画像生成において新しいアーキテクチャがいくつも生まれたので、それを取り込むか否か、どこまでチューニングするかの判断に迷いました。
また基盤モデルの訓練も重要な仕事の一つです。
2023年3月にSD1.5の大規模訓練モデルを完成させた後には大きなモデル制作は行いませんでしたが、SD2.1などのチューニングの基礎研究も行いました。
再現性が高い手法を開発したので、いつでも訓練モデルを用意する準備は出来ていました。しかしGPU資源の確保に難渋して新規モデル開発はしばらく放置していました。
ようやくGPU資源が確保でき、2024年1月には正月休みを使って計240時間以上のTrainingとその後の調整により新生XLモデル: longisland3_XLを完成させました。
公開されているリアルモデルにはBRAなどがありますが、XLのリアルモデルは微妙なものが多く、現状(2024年3月現在)では longisland3_XLが最高峰モデルであるとの自負があります。
(ぱっと見せられる成果物がエッチなお姉さんしかないのアホすぎる)
最近では新たな高速化・高クオリティ化手法も発明し実装しました。
求められるクオリティを維持しつつ、生成時間を1/4に圧縮しました。(せっかく命名したけど名前から機序が何となく推察できちゃうのでしばらく伏せておきます。)
自分としては巷にある高速化手法(LCM, Turbo, Lightning)はどれもすごいとは思うものの実際に使う立場になれば出力画像のクオリティがどれもいまひとつで採用する気にはなれませんでした。
また基本ライブラリであるDiffusersでの画像生成クオリティが低いことは度々槍玉に上がっていて、それを克服したいというのもあり、今回の手法が高速化・高クオリティ化にバッチリハマりました。
Backend・その他
実はBackendも書いてます。
FastAPIの記事も書いてますので是非見てください。
コーディングスキルは赤ちゃんレベルだったので不安でしたが、ChatGPTのおかげもありゴリゴリBackendを実装しています。
実は当初の入社条件では、自分は未経験でありプログラミングスキルは低いのでbackendなどの業務にはたずさわらないと念を押していました。
しかしひょんなことからBackendも書くことになり、最初から要件定義→設計→実装までやらせてもらいました。今は優秀なエンジニアに引き継いでいます。
他はbackendに伴って、クラウド環境などのインフラ整備・DBなどもちょこちょこ触っています。
backendはそれなりに書けたようで、開発の意思決定にも影響し、本流の開発では自分のコードベースで書き換わることが決まりました(パチパチ👏)
デザイン
もともと自分が写真ガチ勢だったこともあり(「Lightroom エモい」で検索すると1番に出てくる)デザイン系はちょっとした強みでした。
Adobe系列が一通り触ることができる、デザインセンスがメンバーの中ではある程度あることから、アセット周りは結構自分がやってます。
例えばLPを作ったり、Figmaでのモックデザインも全部自分が請け負っています。
自分の強み
おそらく器用貧乏ってところかなと思っています。
やれ!と言われれば自分の専門外でも集中力高めてそれなりの品質を担保できる点だと思います。
逆を言えば、超絶技巧を持つ本当のプロには勝てないかなと思いますが。
あとはそれなりに資料をまとめる能力もあるかなと思います。文書化って面倒くさい作業なんですが、エンジニアになってからドキュメントを残す能力というのはとても重要だと痛感しました。このあたりは医学部での訓練とか意外と役に立ってるのかな?
あとは審美眼ですかね。センスというのはなんか違うと思いますが、やっぱり画像生成している中で僕はクオリティに一番興味があります。自分が納得できる出来じゃないと嫌なので、モデル学習や生成機能を開発して、出力にとことんこだわっています。
ちなみに今の会社では医者というプレゼンスは全く役に立ってません笑
医療AIとか開発してるわけじゃないので。
そういえば医者でしたね、ってたまに言われるくらい?
それはそれで医者とはまた別軸の強さが自分にあるということで納得しています。
とはいいつつも、個人的には医療AIや医療DXにも取り組んでて、ちょこちょこ講演会や学会などで発表はしています。
まとめ
以上!なんの参考になるかわかりませんが、未経験から医者やめてエンジニアになった話しでした。
2022年は後の世から振り返れば間違いなく生成AI元年で、ChatGPTやStable Diffusion級の衝撃を味わうことはもう今後の人生でないのではと思います。
未経験でも英語文書がそこそこ読めて、それなりに自分のフィールドの強みがあればなんとかなると思います。今はChatGPTがあるので本当に助かってますね。自己実現のハードルが以前よりぐっと低くなってきてると感じます。
ではばいちゃ!
また何か反響あれば記事書こうかなと思います。