Sony Neural Network Console DNN講座メモ
https://predictionone.sony.biz/
https://dl.sony.com/ja/
物体認識
画像分類とは違う。1枚を分類。
物体認識は、複数の物体検出を行う。
入力はRGB 出力は位置とカテゴリ、サイズなどになる。
物体検出は、物体のカテゴリを確立MAPで出力させる
物体の中心ピクセルのみに高い確率が出力されるように学習する。
一つしかない物体が2回検知されない。
周囲と比較して物体認識の確立が高いという閾値を設ける必要がある。
物体の中心ほど認識が高いというようなheatmapを使うこともある。
出力解像度はどうするか?
ピクセル単位?が必要?
出力解像度を増やすとDNNの処理が上がる。
出力グリッド内で、どこの座標か、出力するのもあり。
確率MAP出力と、物体位置出力で、DNNを途中で分岐させるらしい。
物体が存在しない位置では、誤差逆伝搬させないで学習する。
画像の位置をグリッドで区切って位置出力させると、制限がある
物体数が限られるのと、同一中心位置にある重なった物体を
両方検知できない。
グリッドではなく、アンカーボックスを使う方法。
物体サイズの違う、物体検出結果を5つ出力する。
アンカーの決め方は、数だけ最初に決めて、学習でデータに含まれる
サイズをカテゴリで分けて、それぞれの学習データの大きさを平均化して、アンカーの大きさを決める。
学習させる際には、学習データで最もサイズの近いアンカーボックスとして学習させる。
アンカーボックスでの重複はどうする?
重なりのうち最もスコアの高い検出結果を表示する
NMS (non-maximum suppression)を使う。
Centernet2019年 アーキテクチャ Heatmapを使う。
YOLOやM2_detより良いらしい。
そのほか、アルゴリズムの一覧。YOLOなど。
これらも、この基礎をベースにしているとのこと。
GAN
DNNと逆の過程
判別結果から、画像を出力するような使い方
大量の正解データをたくさん用意する。
生成した画像の本物らしさを学習することによって高品質なデータ生成
Generator
データ生成ネットワーク
本物データ生成
Discriminator
審議判別ネットワーク(二つの画像を見分けるDNN)
偽元データ(generatorで乱数ベクトルで生成)が入力されると、偽物と判定するDNN
本物データ(generatorで生成)が入力されると本物と判定するDNN
最初に入力するのは乱数データで作られた偽物デタラメ画像
Discriminatorの出力が本物になるように、乱数ベクトルを調整する。
学習初期のgeneratorは、あまり本物と呼べるような物にならない。
さらに人間の目で呼べない者は、偽物と判定させて、再学習
→ より厳しくなる。
generatorはdiscriminatorをだますように、
discriminatorは厳しく判定するように学習していく。
Generative Adversarial Networks (GAN) 敵対的。
学習過程
RNN
Many to Many 入力も出力も時系列 データが入力されるたびに、データを出力する。時系列予測。
機械翻訳 同じ意味を文章
Many to One 文章で、答えを一つを出力するパターン
One to many 画像に対するキャプショニングを行う
データの水増し
image augmentation データの水増し 回転やノイズを加えて
Transfer learning(転移学習) 大量のデータから学習したネットワークを再利用
少数のデータで高い性能を得られる。ようなDNNの事前学習を行う。
Semi-supervised learning 大量のラベル無しデータを活用
少数のラベル付きデータから高い性能を得る。
image augmentation
最近は必須の技術。
10%精度が変わってくるという論文での結論もある。
組合わせて用いることもできる。
毎EPOCH同じ加工をしてしまうと、学習としては良くない。
毎EPOCHで、画像を変えていく。
回転角度をランダムにする。
アスペクト非のランダム化、
ランダムに左右反転
cutoutという画像の一部を隠す。
ランダムで隠す。
→ NNCで可能
mixup ランダムに画像を2枚取り出して、透明の画像で合成する。
正解データも合成する。 ex 猫50% 犬50%
→ NNCで可能
cutout
ニューラルネットワークコンソールでも組合わせでできる。
転移学習
→ 少ないデータ数から、モデルの再利用する
通常は学習のパラメータ初期値は乱数を用いる。
データ数が少ないと、十分に学習が進まない。
画像関連であれば、画像の最終層のdenseを除く部分以外の
パラメータを適用する。
データの転移先と、転移元を近い物でないと、難しい。
Sonyの学習済みモデルもたくさんあるので転移学習も可能。
データの品質
少なくとも人が見てわかるぐらいの画像解像度は必須。
間違ったラベリング
GAN、シミュレーションのデータ実データに比べて性能は低下する。
高解像度
画像、音声など複数のモーダルが良い。
匿名化の処理は、データ欠落になる。
基本的に画像の解像度が高いほうがいいが、
メモリやCPUを食う。
認識できるのに十分な範囲で、解像度を落とすほうがいい。
目標性能を最初に決めるべき。
そこでデータを決めていく
数百ぐらいのデータでもそこそこの精度は出る。
オートエンコーダー
オートエンコーダ(AutoEncoder)
オートエンコーダの核は次元削減である。オートエンコーダはニューラルネットワークの一種で、情報量を小さくした特徴表現を獲得するためにある。
入力と出力を同じデータにして学習することを考えてみよう。もし、各層の入力データが同じ次元になるとしたら、データはただ単に出力層に向かってコピーされればいい。
でも、隠れ層の次元が小さくなっていたらどうだろう?同様のデータを小さな情報量に圧縮する何らかの方法をニューラルネットワークは学習しないといけない。これこそがオートエンコーダのやっていることだ。
図のように、隠れ層1と同じサイズの次元を1つだけ隠れ層にしてオートエンコーダで訓練する。
このようにオートエンコーダを用いてパーセプトロンの重みの初期値を予め推定しておくことを事前学習(pre-training)という。
下記のようなオートエンコーダーを使うと、画像が補正される
学習に使っていないデータは復元できない。
大量の正常データのみを学習させる。
元通りに復元できないデータほど、正常データから離れていると、学習させる。
例えば、入力画像と復元画像の平均2乗誤差で判断する。
もう今では実用的な用途としてはめったに使われてないと書かれている。オートエンコーダは画像のノイズ除去や可視化程度でしか利用目的がないとされている。
ベクトルの分類
SPAMフィルタなど
メールの単語の登場頻度から、SPAMかどうかの判別
・線形判別、決定木、SVMなど
iris Flower dataset
150点。3種類の花を、額の幅、長さから判別を行う。
セマンティックセグメンテーション
画素ごとに、分類をする。
すべてdenseではなく、CNNで結合させる。 入力画像の解像度は保たれる。
最後にcategoryを出す事を行う。
CNNとはフィルタ処理のようなもの。
512512の画像としては、55で100層も繰り返さないと、
現実的な大きさの判別ができない。
少ないメモリ、CPUで判別にするには?
max poolingで画像の解像度を下げることで、メモリ、CPUを稼ぐ。
ダウンサンプリングを行って、解像度を下げながら、広い参照範囲を両立するには
unploolingというアップサンプリングをするのは一つ。
U-net よく使われる手法
Skip connectionが追加される。
Dilated covolution 穴あきでCNNをかける。
広い範囲を、少ないコンピュテーションパワーで参照できる。
信号処理フィルタ
DNNで。ex.ボケた画像からはっきりさせた画像を出力
ノイズ除去、手振れ、欠損補完
今までは、個別にやってきたが、DNNのほうが良い
入力と出力を大量に用意するのが理想。
どのように?
劣化信号を復元したい。
良い画像を劣化させることで 学習データを作る。
例えば縮小させる。
jpgの圧縮ノイズも。
ADDACのノイズなども。
semantic segmentationと同じようなCNNだけの構造。
でかい画像は、メモリにすべてを食わせるのは無理なので、
細かい領域にして、CNNで食わせる。
DNNで予測
one hot encoding
日付の入力の仕方
月、日付、時刻で 分けると、 23と0時が不連続、12、1が不連続など問題がある。
時刻のように周期性を持つ情報をsin, cosで表現する。日付では定番のテクニック。
出力のデータが来客数の場合、例えばlogを取った来客数を
出力の学習データとすることで、
対数分布であった、分布がガウス分布に近づけられる。
もしくは離散化するのもテクニック。
例えばワンホット化。 こちらのほうが高い予測精度になる。
分布が均等になるように区切る
画像データと、例えば日時情報、天気情報なども含めて学習可能。
CNN層と、dense層をどこで、結合させるかは難しい。
並列に時系列のデータをすべて入力に並べることもできるが、
RNNがやはり、常套手段。
ラベリング
効率的なラベリングツールの開発
ラベリングをDNNにする。
初期値を、初期の学習データでラベリングしてしまい、
間違っているものだけ、人の手で変えていく。
エッジの認識をするDNNで、
エッジの座標指定する。
量子化
基本的に16bitのintであればほとんど性能劣化は起こらない
DNNの出力に近い層であれば8bitでも性能劣化は起こらない
という実験結果がある。
量子化関数の微分は、back propagationで更新できなくなる可能性あり。
重みやパラメータを動的に量子化することが大事。
推論時は、量子化されたパラメータで行う。
Sony Neural Network Console 機能
構造自動探索機能がある。ニューロンの数、新しい層
活性化関数などを、
停止操作を行うまで、延々と計算ができる。
データセットはcsvで、アップロードする。
用語
・アンプーリング
・リーキーRELU