まとめ
1日目で言ってたテンソルの形を追ってネットを潜るのは非常に重要だと感じてます。大体のバグ・errorはテンソルの形の不一致で起こったりもします。テンソルの形というのはある意味機械学習におけるAPIみたいなものかもしれません。モデルは形さえ合ってれば入力として認めてくれて、返却値を与えてくれます。
2,3日目の離散的な統計値というサンプリングが、どのように連続的な確率を生むのかという話はずっと一貫しています。
4,5,6,7日目の最小モデルで考えるというのは、大きな複雑なモデルを考える上でも非常に重要だと思ってます。パーツ・モジュールに切り分けていけば一つ一つは非常にシンプルです。同時に巧妙でもあるのですが。なので面白いというか。
8-11日目のsam3の深掘りは何が具体で何が曖昧かというのを改めて振り返るのにいい機会だったと思ってます。
12-15日目の自作autoencoderは、タスクをこなすモデルを設計して学習させて推論させるというのはとても面白い作業です。実際の現場ではこんなに整ったデータセットがあることの方がまずあり得ないのですが。このモデルは割とワンショットタスクだけど実際の現場のデータでやるとワンショットなのに、分布が違いすぎてモデルを切り分けたりと泥臭い工夫が必要になったりもします。
16日目のdepthanything3の話は、別に参加させてもらったアドベントカレンダーへの投稿からの深掘りで、開発者の苦労というか、それを乗り越える工夫に少しでも触れられるいい機会でした。
17-22日目のVACEの検証は、comfyuiなどからだけでは見えてこないある程度深い部分が見えてきた、面白い探求になりました。まだまだ見えてない部分の方が大半ではあるものの、今後の宿題ができたと思ってます。にしても、動画生成モデルはたとえ推論だけと言ってもやっぱり大きなリソースを必要とするなぁってのが率直な感想です。
直近の23,24日目のFlowMatchingは、Stable-Diffusionなどの拡散モデル(latent-diffusion-model)の解説をいろんなところで読んだりしても、ずっとふわふわしていて理解不能って思ってたのが、FlowMatchingってめっちゃシンプル!って思えるぐらいにはなれたので、ああ拡散モデルを理解しようと試みたのものあながち無駄ではなかったなぁと再確認できました。
学生の頃は遺伝子工学・遺伝子解析をやってました。特定のタンパク質を作るDNAのコードを探しては、それをpUC18に組み込んで発現させて、どこがプロモーターになってて、何が発現因子になってるかを特定するといった、まぁ地味な実験の繰り返しでした。それがどういうわけか映画の視覚効果を作るってところに流れ着いて、今は機械学習を主にやってます。思い返せばこの24日間は、研究室に戻ったような感じでした。とはいえあの頃は図書館の書庫に行って学会誌から記事集めたり、他大学の書庫へも資料集めに行ったりと、だいぶ足を使ったこともやってましたが、今は随分とそこが簡略化されました。LLMを利用することでさらにそれが加速し、知識の境界を押し広げることもできます。
先日、社内の同僚との会話で、こんなにも生成AIで精巧な出力を得られるようになると、今までのストーリーテリング、ナラティブの根幹となっているものが覆されると彼は嘆いていました。つまり、誰もスクリーンの中で起きてることを信じなくなる。やがて半径10m程度のリアルな体験しか信じられなくなると。インターネットで急激に縮まった距離がまた遠ざかると。
リアルに“見えてしまう”ものが増えるほど、リアルを支えるのは映像そのものではなく、そこに付随する信頼であると。
なんともディストピア的には聞こえますが、あり得なくはない。
それでいうと、いつの間にか全世界人口が82億人になっていて、これはこれでリアルなはずなのに全く信じられない・・・(人口の話をすると三国志の時代にほんまにあんなに人がおったんか?っていつも思ってしまうのですが)
あと、夏がとんでもなく暑いとか・・・ でも太陽と地球の距離とか、月の日温差を考えたら地球って奇跡としか思えないバランスのところにいるんやなとか・・・