はじめに
世はまさに、大AI時代!!
特に2025年からは、フィジカルAIと呼ばれる「見る」「考える」「動かす」を連動させたAI技術が盛り上がっています。
このフィジカルAIの入口にあたる「見る」を担当する画像AIは、10年前のAIブーム黎明期から様々な手法開発が続き、その全貌を理解することが難しくなっています。だからこそ今、流行を追うだけでなく、基礎から本質的に理解することの価値が高まっています。
本記事はそんな
「トレンドに乗り遅れたくない…でも表面的な理解にとどめたくない」
という方が、最短経路で画像AIの理論と実装を網羅的に学習できることを目指していきます。
対象読者
以下の方を対象とします。
- 画像AI(特にCNN、Vision Tranformer等の基幹となる技術)の理論を論理的飛躍のないようざっくり理解したい方
- Pythonがある程度 (関数、クラス等の文法が分かる)使える
- 高校レベルの数学 (行列、微分記号の見方)を知っている
- 機械学習に関する初歩的な知識 (学習と推論、説明変数と目的変数、分類と回帰の違いが分かる)がある
論理の飛躍がないよう理解するためには最低限必要な知識となるため、各自勉強してください・・・だけだと困る人も多いと思うので、以下に学習ガイド記事を作りました
サンプルコード
以下の3つのGitHubリポジトリに分けて、本記事のサンプルコード(Python/Jupyter形式)をアップロードしています。
1章のサンプルコード:NumPyベースのスクラッチ実装
2-4,6章のサンプルコード:実務でも使えるPyTorch実装法を解説
5-8章のサンプルコード:Transformersの画像への活用法を解説
目次
1. ニューラルネットワーク基礎編
1-1 画像AIの全体像
1-2 事前知識とニューラルネットワークの概要
1-3 ニューラルネットワークの学習
1-4 最適化アルゴリズムと学習率
1-5 過学習と正則化
1-6 損失関数とAIのタスク設計
1-7 CNN(畳み込みニューラルネットワーク)とDeep Learning
1-8 ニューラルネットワークと画像AIの歴史
1-3補足:誤差逆伝播法の数式解説
1-5補足:Batch Normalizationの数式解説とスクラッチ実装
2. PyTorch基礎編
2-1: PyTorchの基礎
2-2: 本記事のサンプルコードの動かし方
2-3: データ拡張(Data Augmentation)
2-4: 特徴抽出と転移学習・ファインチューニング
2-5: PyTorch学習高速化テクニック
2-6: PyTorchのマルチGPU学習
2-7: 推論の高速化・共通化フレームワーク
2-8: Optunaによるパラメータチューニング
2-9: MLFlowによる実験管理
3. 画像認識の各種タスク
3-1: 画像向けAIタスクまとめ
3-2: CNNの高速化のための工夫
3-3: 物体検出
3-4: セグメンテーションの概要
3-5: セマンティックセグメンテーション
3-6: インスタンス・パノプティックセグメンテーション
3-7: その他の教師あり画像認識タスク
3-8: 画像向けAIの性能評価
4. 画像認識の実践知識
4-1: 画像認識向けデータセット
4-2: 画像認識モデルの各種フレームワーク
4-3: アノテーションの基礎知識
4-4: CVATによるアノテーション環境構築
4-5: PyTorch Lightningによる実装の簡略化
4-6: 学習がうまくいかないときのデバッグ術
5. Vision Transformer
5-1: Vision Transformer概要
5-2: Swin TransformerとViTの改良
5-3: Hugging Face Transformersの使い方
5-4: Transformerベースの分類・バックボーンモデル
5-5: Transformerベースの物体検出モデル
5-6: Transformerベースのセグメンテーションモデル
6. 教師なし学習・生成モデル
6-1: 教師あり学習と教師なし学習
6-2: オートエンコーダ
6-3: 生成モデルとVAE(変分オートエンコーダー)
6-4: GAN(敵対的生成ネットワーク)
6-5: 正規化フロー
6-6: 異常検知向けモデル
6-7: Diffusion(拡散)モデル
6-8: 動画生成AI(Video Generation)
7. 3D向け手法
7-1: 3DセンサとAIモデル概要
7-2: 3D物体検出
7-3: 深度推定
7-4: 3次元再構成
8. 基盤モデル
8-1: 基盤モデル(Foundation Model)とは
8-2: CLIPと画像・テキストの共通空間
8-3: DINOv2と自己教師あり学習
8-4: Segment Anything Model (SAM)
8-5: 正規化フロー
9. マルチモーダルとVLM
9-1: マルチモーダルAIとは
9-2: Vision-Language Model(VLM)概要
9-3: VLMの実装例
9-4: VLMの限界と課題
10. フィジカルAI
10-1: フィジカルAIとは何か
10-2: フィジカルAIにおける画像AI
10-3: 強化学習・ロボティクスとの接続
10-4: 世界モデル
10-5: フィジカルAI向けフレームワーク
10-6: フィジカルAIの将来展望
各記事要約
各記事の要約を以下にまとめます
(3章以降の要約は執筆しながら追加していきます)
ニューラルネットワーク基礎編
画像AIモデルの全体像について触れたのち、その屋台骨となるニューラルネットワークの基礎とAIモデルとの関係を解説します。この章はこの分野のバイブルと言える名著『ゼロから作るDeep Learning』(通称「ゼロつく」)の内容をベースに、数式解説や補足解説等を加えています
画像AIの全体像に関して、ニューラルネットワーク、ディープラーニング、CNN、Transformer、基盤モデル、VLM、フィジカルAI等のキーワードの繋がりに触れながら解説します
ニューラルネットワークの基礎知識を解説します(ゼロつくの1〜3章に該当)
ニューラルネットワークが高性能を発揮できる理由である、誤差逆伝播法による効率的な学習メカニズムを紹介します(ゼロつくの4〜5章に該当)
学習を効率化してモデルの性能UPの繋げる各種手法を紹介します(ゼロつくの6章に該当)
ニューラルネットワーク学習の大敵である、学習の不安定性と過学習を防止する重要テクニックを紹介します(ゼロつくの6章に該当)
ニューラルネットワークベースのAI(すなわちほぼ全てのAIモデル)の学習の根幹となる、タスクに基づく損失関数の設計コンセプトについて解説します
1-7 CNN(畳み込みニューラルネットワーク)とDeep Learning
画像認識におけるニューラルネットワークの性能を飛躍的に高め、現在まで続くAIブームの最初の牽引役となったCNNの原理を紹介します(ゼロつくの7〜8章に該当)
ニューラルネットワークを中心とした画像AIの歴史を紹介し、どのような技術が登場し性能発展に寄与したかを概説します。
PyTorch基礎編
画像AIの実装に必要なフレームワークであるPyTorchの基礎と各種テクニックを解説します
画像AIを始めとした現代のAIモデル実装のデファクトスタンダードとなっている、PyTorchの概要について解説します。
PyTorchの環境構築・実装には様々な流儀がありますが、一般的な環境構築・実装の流れと、本記事のサンプルコードの動かし方について解説します。
データをかさ増しして学習効率を向上させる、データ拡張(Data Augmentation)の概要とPyTorchでの実装方法を解説します。
限られたデータ量・計算資源で高性能を実現する、転移学習とファインチューニングの原理とPyTorchでの実装方法を解説します。
PyTorchの学習を高速化する各種テクニックを解説します。
複数のGPUを使用して
推論のPyTorch以外との共通化や高速化を実現する、ONNXやTensorRT等の推論向けフレームワークについて解説します。
モデル性能を最大化するためのパラメータチューニング方法について解説します。
学習履歴を可視化・管理し、チューニングやチーム開発を効率化する方法を解説します。