Robust Random Cut Forest Based Anomaly Detection On Streams, ICML 2016
robust random cut tree(RRCF)に基づくストリームデータの異常検知手法を提案する。
RRCFはIsolation Forestと類似しているが、各ステップにおける次元選択時に各次元のデータ分散幅に基づいた重み付け分布を用いる。
またその分割の軌跡を木構造で構築し、それを大量に作りアンサンブルする事でforestを作る。
このRRCF構造は、データ分散幅に基づく距離の定義の利用で、その距離が大きければ少なくともある2点がマンハッタン距離以上は離れている事が言える。
この事実を利用してさらに任意のLp(p>1)距離に関してもそれが大きい場合はRRCFにおけるisolationが早くなる事も言える。
またオンライン監視を意識した、保持するサンプルの取捨、またそれに伴う木構造変化に関して、生成確率的に一貫したサンプル取捨後の木構造を効率よく計算する手法を提案する。
この手法では、確率分布を替えないようにするだけでなく、サンプル取捨前後で構造が近い事を要求する。この要求を満たすためにはデータ分散に応じた次元選択がキーとなる。
Scalable Variational Inference in Log-supermodular Models, ICML 2015
log-supermodularモデルにおけるapproximate bayesian inferenceを扱う。
このモデルは2値変数におけるマルコフ確率場を扱い、さらに高い次数の相互関係を学習出来る。
このモデルの適用例としては画像セグメンテーションがある。
log-supermodularモデルの1つであるL-Fieldは劣モジュラ関数の微分を用いて分配関数のバウンドを変分推論の枠組みで最適化するものであった。
本論ではL-Fieldにおける変分推論を良く研究された劣モジュラ最小化に関する最小ノルム問題に帰着出来る事を示した。
この事実を利用し、より効率的な最適化を可能にした。
さらにL-Fieldは特定のRenyi距離を正確に最小化出来る事を示した。