【論文シリーズ】3Dの像を畳み込みNNで学習する #機械学習

原文

m番目のフィルタリングによって、$(i-1)$層のフィルタポジション$(p,q,r)$が$i$層の映像$(x,y,z)$に与える影響を一般的に表現すると、次のようになる。

v_{i,j}^{xyz} = \tanh \Big( b_{ij} + \sum_{m}\sum_{p=0}^{P_i-1}\sum_{q=0}^{Q_i-1}\sum_{r=0}^{R_i-1}w_{ijm}^{pqr}v_{(i-1)m}^{(x+p)(y+q)(z+r)} \Big)

3Dの畳み込みの方法にも、特徴がある。
2Dでは、1方面の情報のみ畳み込んでいたが、3Dでは、様々な角度から捉えた情報を系列的に取り込んで、それを次の層に抽出していく（下図）。

HMAXという動画サンプルの分類を行った。
6種類の人間の動きを分類するものだが、識別率はトップレベルに拮抗するものの目覚ましい違いが出る感じではなかった。