0
4

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

深層学習を学習しなおすメモ

Last updated at Posted at 2022-12-28

この記事の目的と対象

深層学習のトレンドについて、一般的な話は訳知り顔でできるが、技術的詳細を突っ込まれはじめると、しどろもどろになってしまうようなエンジニアが、個別の技術を学び直すための手がかりのメモです。

この記事は、偏微分や勾配降下法という概念は覚えている、ディープではないニューラルネットワークくらいはさすがに原理を覚えている、くらいの理解度を前提としています。そして、門前の小僧として、個別の深層学習のトレンドの記事はパラパラ見たことがあるが、細かいところはすっかり忘れてしまった、というエンジニアを対象としています。

つまり、この記事のターゲットは、半年後の私です。

随時更新。

体系的に1から学びたい

本当にしっかり身につけたいエンジニアは、『ゼロから作るDeep Learning』のシリーズが手を動かしながら理解できる良い本と聞き及びますので、そちらを腰を据えて取り組まれると良いのではないでしょうか。

個別技術をキャッチアップする

YouTube でのソニーの方の解説動画が、なぜその技術が必要とされたのか、という文脈も含めて説明してくれていることが多いので、技術の位置づけが分かりやすくてオススメです。

GELU / Swish

活性化関数といえば ReLU だと思っていたのですが、BERT や GPT では GELU が用いられると聞きました。

GELU は正規分布の累積分布関数が用いられているようなのですが、初等関数では計算できないので、近似式を用います。Swishはそこからさらに性能が高くなったらしい活性化関数。

なお、ReLU は演算速度に関しては他の追随を許さないので、今後も活用され続けることでしょう。

Adam

学習時のパラメータの更新の最適化は Adam を知っていればだいたいよいらしい。
AdamはモメンタムSGDとRMSPropを組み合わせたもの。

CNN の心

CNNというのは、要するに、画像など入力値が多い場合は、全結合してしまうとパラメータがすごいことになってしまうので、結合をいかに減らしていくかというテクニックの話だと認識しています。パラメータを減らした際に、上手く対処したい問題に適した構造が作れれば、学習も速やかに行えます。画像の場合は、隣接領域に関連する情報があることが多いのだから、隣接領域でまずはネットワークを作ろうというのがCNNです。

U-Net

画像を処理するときに、高解像度のままだとパラメータ数がすごいことになるので、プーリングで解像度を落としながら本質的な情報だけを残していくのですが、出力時に高解像度画像で受け取りたい場合、一度解像度を落としてからでは、後段で拡大を頑張っても無理があったりします。

その解決策として、前段でのプーリング直前の解像度が高い情報を、後段の同じ解像度の層に直接つなぐことにより、解像度が高い出力を得やすくした構造です。

LSTM

LSTM は、グルグルと状態を回し続けながら時系列データを処理するRNNに対して、こういう状況の時は、状態を更新しなくて良くて、なんなら忘れてしまって良い、というゲート制御を追加したものです。

時系列データを扱いたいときに用いられていた RNN では遠くの過去の情報がどんどん失われてしまうので、LSTM (Long short-term memory) が良い、と何年か前に読んだ覚えがあるのですが、系列データをひとつずつ処理しないといけないため、近年では応用によっては入力トークンを全て並列に計算できる Transformer に置き換えられがちという印象(素人の印象です)。

Sentencepiece

指定した語彙数で、(機械学習にとって)いい感じのテキストの分割、符号化をしてくれるのが、Sentencepieceです。

自然言語処理でテキストを深層学習のネットワークに入れるためには、テキストを何らかの数値列に符号化しないといけないのですが、英文のワード単位などで符号化されると非英語圏で使えないことになってしまいます。

日本語を食わせたいときにトークナイザとして使っておくととりあえず安心なやつ、という理解。

Attention

Transformer の中核技術。Key と Value と Query という登場人物が出てきます。要するに、深層学習のネットワークを工夫して、Dictionary 的な構造を作るというワザ。これを使って、算出した Query に応じて、対応する Key に一致する Value を引っ張ってくるという処理ができるようになり、入力データの一部だけに着目するという処理が少ない計算量で実行できるようになりました。

Transformer

BERT や GPT など、自然言語処理の性能が爆上がりした世代の言語モデルの基幹技術。Imagenなどの画像生成技術でも、使われています。

入力を encoder で比較的情報量の小さいパラメータ空間に圧縮した上で、decoder で目的の形に復元する。翻訳などが得意。

BERT, GPT-n, T5

自然言語処理の各タスクについて、事前に言語モデルを膨大な量のコーパスから学習させてから、各タスクにファインチューニングすると性能がとても良くなるよ、というモデルたち。

言語モデルは、基本的には入力列から次の単語を予測するというタスクですが、BERTは双方向からの単語穴埋めと文の連接判定を同時に解いています。T5はText-to-Textで表現可能に調整された様々なタスクを学習。

ChatGPT

OpenAIによる最新のチャットAI。GPT-3.5に対して、人間が好むチャット回答を返せるように、人間を教師として再学習したもの。

Vision Transformer

CNN を通した結果の特徴量を Transformer に突っ込む手法。

CNN は局所的な関係性を抽出するのが得意だが、Transformer であればグローバルな関係性に注目することができる。また、Transformer は大規模なデータを食わせると汎化性能が良くなるという実例がたくさんあるので、それをvisionの分野でも活用したい、というモチベーション。

CLIP

画像とそのキャプションをたくさん食わせることで、画像とテキストの距離を計算できるようになったという技術。

テキストの encoding には Transformer、画像の encoding には Vision Transformer を使う。

Diffusion Model, DALL-E, DALL-E2, Imagen

DDIM, PLMS

Diffusion model では、単純な denoise だけでは計算量が多すぎるので、さまざまな高速化が行われている。その高速化した denoise のやり方のバリエーションに DDIM や PLMS がある。

NeRF

複数の視点画像から、三次元の形状を推定する研究の一環として、自由視点でのレンダリング結果を得られるようにしたモデル。

初期の論文のレンダリング方程式が適当だったので、ちゃんと正しいレンダリング方程式にしたら精度が上がったというような論文をどこかで見た覚えがあり、これぞ学際領域と思ったものでした。

DreamFusion

テキストからNeRFの生成を、テキストから2D画像を生成する大規模モデルだけで実現したという論文。テキストから2D画像を生成するモデルの内包している知識には、三次元形状も含まれているということですね。量で殴ってくる最近のトレンド通りの話。

姿勢推定

カメラ画像からの姿勢推定。同じ技術名でも、年々更新されていっているので、ネット上の記事はいつ頃の実装について述べているのかをチェックする必要がある。

github で公開されているのはありがたいのですが、利用に色々制限があるので、よくライセンスを調べてから使う必要があります。

GNN

グラフ構造をニューラルネットワークで扱うための手法。SuperGlueなどで使われている。

SuperGlue, LoFTR, DKM

画像特徴量のマッチングを行う。

Whisper

OpenAI による音声toテキストのモデル。

> pip install git+https://github.com/openai/whisper.git

だけでコマンドラインツールとしてインストールできるお手軽さが嬉しい。

v1では日本語の長文書き起こしを苦手としていて、whisper-webuiを使ってSilero VADを挟まないと精度が出なかったのですが、large-v2モデルであれば、そのまま使うだけで日本語長文でも素晴らしい書き起こしの精度がでます。

あと、タイムスタンプ付きで出すこともできますので、SRT形式で出力して、そのままYouTubeに字幕をつけられたりも。

なお、多言語音声から英語テキストへの翻訳機能は標準でサポートされていますが、ツールとしては英語以外への翻訳はサポートされていません。しかし、書き起こしモードで language に日本語を指定した上で英語音声を読み込ませると、普通に日本語で出てきたりします。このあたりの大雑把な感じが大規模言語モデルですね。

VALL-E

Microsoft による text-to-speech。未知話者の3秒の音声を音声プロンプトとして入れるだけで、その声色、感情、音響環境を保った音声の生成ができることがウリ。

音声を EnCodec により離散コード化し、それを大規模言語モデルとして学習することで、性能を実現。6万時間の英語音声で学習。

0
4
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
4

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?