予測符号化モデルについて調査する動機(追記)
画像認識は、画像の取得から推論結果を得るまでの遅延がどうしても大きくなってしまいがちである。
リアルタイムに動作するシステムの一部として画像認識技術を用いるとその遅延時間が問題になってしまうことがある。
潤沢なハードウェア資源を使って推論に要する時間を短縮するアプローチもあるだろう。
しかし、リアルタイムであって組み込み系の画像認識の場合には、潤沢なハードウェア資源を使うというアプローチは許されないことが多い。
また、リアルタイムに動作するシステムの場合には、その遅延がシステムの動作の本質にかかわってくる場合も多い。明日の天気予報が、明日になって得られるのでは、実用上は意味がない。
走行中の車両からの物体検出ならば、その結果を事故の回避に結び付けられる必要がある。通常の画像認識の結果は、機械学習によるものであれ、ルールベースのものであれ、常に、画像をキャプチャした時点という過去の時点の情報である。情報を手にした時点では、既に遅延時間分だけ過去の情報にすぎない。
そのため、今を知るためには、遅延時間分に相当する時間差だけ「未来予測」した結果が、おそらく「今」の状況である。
人の脳の中ではそのような処理をしているので、網膜に結像してから知覚するまでの時間差があるようには自覚されない。
深層学習の分野でも、微小な時間差分だけ、「未来予測」をする試みがなされている。
Wikipedia Predictive coding
[予測符号化 (predictive coding) とは何か]
(https://omedstu.jimdofree.com/2018/08/17/%E4%BA%88%E6%B8%AC%E7%AC%A6%E5%8F%B7%E5%8C%96-predictive-coding-%E3%81%A8%E3%81%AF%E4%BD%95%E3%81%8B/)
Predictive coding (Rao & Ballard, 1999) モデルの実装
Deep Predictive Coding Networks for Video Prediction and Unsupervised Learning
qiita 「予測する脳」Predictictive codingの実装モデル「PredNet」を動画に適用して、一時点先の画像予測を行ってみた
github prednet
github Deep Predictive Coding for Multimodal Representation Learning
上記のgithub の内容は興味深かったので、そのREDAME.mdの内容を一部和訳する。
動画での次のフレームの画像の予測を行っている。
概要
機械学習の用語では、常識的な推論は、時空間感覚データの背後にある隠れた要因を解きほぐす表現を学習する能力に関連しています。 この作業では、知覚と神経科学の文献からの学習の予測符号化理論が、そのような常識的な誘導バイアスを実装するための良い候補である可能性があると仮定します。 Lotterらによる予測符号化(2016)の先行する深層学習の実装に基づいています。 そして、料理やダイビングなどの抽象的な日常の人間の行動を推測するという挑戦的なタスクにその用途を拡張します。 さらに、聴覚データを処理するための同じアーキテクチャの新しい用途を提案し、単純な感覚置換トリックを使用して、予測符号化モデルが有用な表現を学習できることを発見しました。 私たちの転移学習実験は、UCF-101アクション分類データセットで学習された表現の優れた一般化も示しています。
研究上の質問
世界を観察することで常識を身につける機械の設計を調べるために、Lotterらによって公開された予測符号化モデル(2016)の深層学習の実装を利用します。 彼らの深層予測符号化ネットワーク(deep predictive coding network)は、合成画像と自然画像のオブジェクトの動きに相関する潜在変数を解きほぐす表現を学習することが示されました。 私たちは彼らの研究を拡張して、以下の質問に対処します。
-
教師なし予測符号化モデルは、より高いレベルの時空間概念、つまり運転や運動などの日々起こる活動を学習できますか?
-
予測符号化の誘導バイアスは、これらのモデルが聴覚情報からも学習できるほど十分に一般的ですか?
-
Friston and Kiebel(2009)およびRao and Ballard(1999)によって提案された元の神経科学理論に関して、深い予測符号化の実装の制限は何ですか?
寄与
私達の主要な寄与は以下に要約される。