Variational Information Maximization for Feature Selection, NIPS2016
特徴選択問題は機械学習領域の古典的な問題である。
従来手法では、対象ラベルと入力特徴subset間の相互情報量を最大化するように特徴選択を行う手法などがある。
実際には、相互情報量を厳密に計算する事は難しいため、近似的な手法が主に用いられてきた。
しかしそのために置かれる仮定は、非現実的である。
本論では、より柔軟性が高く一般的な仮説を変分推論の枠組みで置くことで、相互情報量の下界を計算可能にした。
この手法は特徴選択問題に対する新たなアプローチを開拓し、例えば、特定のグラフモデルに関しては適切な提案分布を用いる事で最適である事を示せた。
Learning User Perveived Clusters with Feature-Level Supervision, NIPS2016
Semi-supervised clustering問題では、ユーザーから与えられる情報を援用する事で、その情報も考慮したデータのクラスタリング結果を獲得する問題である。
従来こうした設定では、ユーザー情報はinstanceレベルで与えられるため、featureレベルの情報を扱うものは少なく、また偏ったサンプルへ情報が与えられる事によるsampling biasの影響がある。
本論ではfeatureレベルの情報を扱うための手法を提案し、preveption vectorを用いる事で広い範囲んもapplicationへ適用可能な形え与えられた情報を表現する。
この情報と従来のinstaneベースの情報を組み合わせてクラスタリングを可能にするPerception Embedded clusteringを提案する。
Deep Learning without Poor Local Minima, NIPS2016
本論では、1987年と2015年に発表された予想の証明、及びopen problemに対する部分的な答えを与える。
Squared loss functionを持ついかなる幅、深さを持つ線形ネットワークに対して、そのネットワークは非凸、あるいは凹であり、全ての局所解は全所解であり、全所解でない極値は鞍点であり、三層より大きなネットワークではHessianが負値を持たないような鞍点が存在するが、三層以下の場合はそれが存在しない事を示した。
また非線形ネットワークに関しても、最近の研究において用いられているindependence assumptionを用いた線形ネットワークへのreductionにより同様の事を導く事が可能である。
以上の結果から、deep learningモデルは理論的にどれくらい学習が困難か?という問いに対して答える事ができる。
それは、従来の機械学習モデルよりは非凸、凹性のため難しいが、悪い局所解が存在しないためそこまで難しい訳ではないという事である。
しかしながら、上記の理論的見地を持ってしても、未だ実際と理論の差は大きい。