Posted at

機械学習論文読みメモ_37

More than 1 year has passed since last update.

Variational Information Maximisation for Intrinsically Motivated Reinforcement Learning, NIPS2015

相互情報量は様々な領域で用いられるコアとなる統計量である。

相互情報量に関する最適化は主にBlahut-Arimoto algorithmを用いる。

このアルゴリズムは例えば、入力に対して圧縮された出力を、入力との誤差を最小化しつつ得るための、逐次最適化手法であり、相互情報量に基づいた考え方に基づいている。

しかしながらこの手法は指数的なcomplexityを持つために、昨今の大規模な最適化問題には適用が難しい。

本論では、deep learning及び変分推論の理論を用いて、この手法に対するスケーラブルな最適化手法を提案する。

ここでは強化学習の文脈で提案されているempowermentの理論を用いた学習手法を適用する。

この理論は環境からの利得が得辛い場合に、agent自身に内在する動機、hunger, boredom, curiosityなど、を定義し探索を可能にする考え方に基づく。

そのような内在的な動機を定義するにあたり、empowermentはagentがどれだけ環境に影響を与える、コントロールする事が可能かを、行動とそれによる将来状態の間の相互情報量にて測り、それを最大化する事を動機とする。

この考え方は、生物界においても、同様に環境に対するコントロール性(empowerment?)を最大化する行動様式が見られる事から提案されている。

提案手法ではこの相互情報量の変分下界をCNNを用いた最適化にもとづいて学習する。

Column Selection via Adaptive Sampling, NIPS2015

巨大データ行列に対して、例えばsparse PCAのように、より少ない部分列を選択して表現し直す問題をcolumn subset selection problem(CSSP)と呼ぶ、

本論では特に逐次的な手法に注目し、active learningの考え方を取り入れて各ステップにおいて今までのステップで選択した来た部分列にもとづいてadaptiveに新たな部分列を選択していく手法を提案する。

特に各ステップにおけるresidualは、今まで選択してきた部分列では表現できない部分を計算し、それを用いて次の部分列を計算する。

この手法はrelative-error column selectionに関する手法すべてに適用可能である。

この手法を適用する事でよりタイトなboundが導出可能である。

Hidden Technical Debt in Machine Learning Systems, NIPS2015

機械学習は複雑な予測モデルの構築をいち早く行うために便利な道具である。

しかしながら、これらを導入するためには大きなメンテナンスコストを支払う必要がある。

本論では機械学習特有のこうしたコストについていくつか論じる。

システムレベルにおいては、従来システム間の独立性を保つ事が、その後の改良、保全時に効率的だが、機械学習システムにおいては、その独立性を保つ事が難しい。

これは機械学習システムが、それ自身だけでなく外部データに依存する事より明らかである。

あるいは、機械学習システムは入力された信号を行列演算により混ぜ合わせて利用するために、各信号を分離、変更する事は全体への影響なしに不可能である。

他には、ある問題を解くモデルを少し変更して似た問題を解きたい場合に、そのモデルの出力を用いてカスケード的にモデルを追加して解く場合が多い。

しかしこの手法を機械学習システムに適用するとモデル間の依存性が強くなり、独立性の担保は難しくなる。

さらに、機械学習システムがdeclareされていないユーザーに利用可能な場合で、そのユーザーが機械学習システムの出力を別のモデルの入力に用いる場合、そこには隠れたカップリングが発生する事となり、これは大きなリスクになりえる。