Measuring Sample Quality with Stein’s Method, NIPS2015
モンテカルロ予測の実用性を向上するために、実践者はMCMCの漸近的正確さと計算速度のトレードオフを行う。
これは高速サンプリングによる分散の減少効果がその代償に生じるバイアスよりも重要である事を考えると理に叶っている。
しかしながらこのバイアスがある場合、例えば効果を発揮するための有効なサンプル数を見積もる際に正確な見積もりが難しくなる。
本論ではこの問題に対処するために、Stein's methodに基づいた様々な分布に適用可能なサンプル平均と真の平均との差を評価する指標を提案する。
Stein's methodは確率分布間の差を計算するための一般的な手法である。
本指標を用いて、ハイパーパラメータ選択、収束性、bias-varianceトレードオフの評価などを行った。
Learning Theory and Algorithms for Forecasting Non-Stationary Time Series, NIPS2015
non-stationaryでnon-mixingな一般的stochastic processのlearning boundを扱う。
従来研究においては、stationaryかつmixingが行われている前提での理論解析が行われてきた。
しかしながら、実際の現象においてはそれらは成立しない事が多い。
本論ではそれらが成立しないnon-stationaryでnon-mixingな環境においてのboundを考える。
その際通常のRadamacher complexityやcovering numberではなく、データシーケンスに依存した、シーケンス型の発展系を用いる。
これにより、実際のデータに依存した形でboundを導出する事が可能になる。
Distributed Submodular Cover: Succinctly Summarizing Massive Data, NIPS2015
大量データセットを近似するような出来る限り小さなデータ部分集合を探索する問題を考える。
この問題を扱うにあたっては、大量データと部分データを比較評価する関数が大事になってくる。
そのような関数を本論ではsubmodular cover problemとして定式化する。
比較評価関数はsubmodular性を持っていると仮定する。これはデータ要約において頻出する現象である。
この問題の最適化は、greedy法を用いる事でlogarithmの精度保証で求解可能だが、それは逐次的プロセスであり、大規模データ処理には向かない。
本論では、mapreduce的な計算を可能な手法を提案し、その近似保証を行った。