最初に
2025年ももう終わろうとしており、ここ数年前のめりになってやってきた CV / ML / NN をまとめてみたいという気持ちになりました。ちょうどアドベントカレンダー時期でもあるので、せっかくだし便乗してみようと思います。
ところで CV / ML / NN とは何でしょうか?
これらはそれぞれ Computer Vision, Machine Learning, Neural Network を指しています。雑に言えば「AI」なのですが、AI という言葉はどうも気恥ずかしい。自分がやっているのはもっと素朴な実装実験ばかりなので、“AI”と名乗るのはどうにも似合わない気がしていて、ひとまずこの表記にしています。
自分はこれらの分野を体系的に教育として学んだわけではありません。
なので「CVとは○○で、MLは△△である」といった講義めいた話はほぼ出てきません。単純に、画像タスクを中心に「どう手探りしてきたか」の記録を残すシリーズです。そんなわけでタイトルは 「手探りしてみる CV / ML / NN」 にしました。講釈より実験。肩肘張らずに「あのとき何をどうやってみたか」を淡々と書いていきます。
扱うのは、ここ数年で自分が手を動かした中で、特に印象に残った画像まわりのトピックです。
たとえば、
• 特定の条件でタスクが崩壊するのを立て直そうとした話
• 既存の Foundation モデルを自分の用途に合わせて活用してみた話
• latent 空間の圧縮率を変えてみたら、出力に大きく影響が出た話
といった “小ネタ” を中心に、実験の設計から失敗談まで隠さず書いていきます。
前述の通り、自分は CV / ML / NN を学問的にきっちり学んでいるわけではありません。
その代わり、実装レベルで
• 「こうすると動く」
• 「ここでハマった」
• 「この指標は思ったより当てにならない」
といった、実際の体験をそのまま書くつもりです。なので「誰かが同じところでつまずいたとき、ちょっとしたヒントになれば」みたいな、そんな大それた意図でもなく、本当に徒然の記録です。