「G検定をまとめる」の記事の項目の一つです。簡単にまとめて後付けしていくスタイルです。広く浅く学習していき、徐々に深くしていきます。
ディープラーニングの手法
ディープラーニングの手法を大きく分けるとCNN、RNN、Attension、生成モデル、強化学習、の5つに分けられます。
CNN(画像データ)
CNNの基本的な構造
CNNの発展
AlexNet, VGG, GoogLeNet, Inceptionモジュール, ResNet, MobileNet, EfficientNet
RNN(音声データ、テキストデータ)
LSTM, GRU, BiRNN, エンコーダ-デコーダ,
Pre-trained Models
応用タスクを解くための事前学習モデル
GPT, BERT, ALBERT, DistilBERT, GPT-2, Megatron-LM, Turing-NLG, ViT
Attention(画像分類、自然言語処理)
Attention, Transformer,
深層生成モデル
VAE, GAN, DCGAN, Pix2Pix, Cycle GAN,
深層強化学習
DQN, モンテカルロ木探索、AlphaGo, AlphaGo Zero, Alpha Zero, OpenAI Five, AlphaStar,
ロボット制御に応用する際の課題
次元の呪い
その他の構造
NAS, NASNet, MnasNet,
タスクの種類
画像分野での応用
画像認識タスク
AlexNet, GoogLeNet, VGG, ResNet, Wide ResNet, DenseNet, SENet,
物体検出タスク
R-CNN, FPN, YOLO, SDD, Fast R-CNN, Faster R-CNN,
セグメンテーションタスク
FCN, SegNet, U-Net, PSPNet, DeepLab, DeepLab V3+,
姿勢推定タスク
Convolutional Pose Machine, Open Pose
マルチタスク学習
物体クラスの識別と物体領域の位置検出を同時に行う:Faster R-CNN, YOLO, Mask R-CNN,
音声処理と自然言語処理
時系列データの扱い(前処理)
音声データの扱い
A-D変換、PCM(パルス符号変調)、FFT(高速フーリエ変換)、HMM(隠れマルコフモデル)
テキストデータの扱い
n-gram, BoW(Bag-of-Words),TF-IDF, word embedding, word2vec, skip-gram, CBOW, fast Text, ELMo,