機械学習
MachineLearning
論文読み

機械学習論文読みメモ_12

More than 1 year has passed since last update.

Data-driven Rank Breaking for Efficient Rank Aggregation, ICML2016

個人の好み情報を集め、それらに基づき全体的なランク情報を取得する。

全体的なランク情報を学習する際、その計算コストを低減するためにrank breaking手法を用いる。

この手法では、個人の好み情報を互いに独立なベアワイズ比較情報へ分解し、その情報に適用可能で効率的な手法を用いる。

しかし各比較情報間を独立に扱うため、その予測結果は一貫性が低い。

本論ではこの欠点を、データのトポロジーを考慮する事で、各比較情報を不均等に扱う事で改善する。

この考え方にもとづき、提案する手法は一貫性のある結果を最適な誤差バウンドの元得る事が出来る。

この事で、精度とモデル複雑性のトレードオフを理想的な形で獲得出来た。

Persistence weighted Gaussian kernel for topological data analysis, ICML2016

topological data analysis (TDA)において、persistence diagramはデータ表現手法として広く使われる。

これは、各データ点周りの半径rの球を考え、rを変化させた時の各点間のオクルージョンに基づく接続関係(r-neighbor graph)を見る事で構造(環がいつ出来るか等)の変化、あるいは一貫性を表現する。

本論では、データから得られたpersistence diagramをカーネル関数を用いる事でベクトル化し、それを用いてカーネル手法を適用可能にする。

Stratified Sampling meets Machine Learning, ICML2016

データベースに対してクエリを投げた時、各データ点毎のクエリに対する点数を合計した値を返したい。

これを単純に行うと計算コストが膨大なので、データベースからサンプリングした部分集合だけを用いて近似したい。

従来はこれを一様サンプリングに基づいて行っていたが、本論では非一様なサンプリング、つまりstratified sampling、に基づいても行う。

提案するサンプリング手法はPACの文脈、つまり機械学習の文脈に基づいて提案される。

ここでは、各データ点のサンプル確率と、訓練データとして今までのクエリ結果とを用いてモデルを学習していく。

これは正則化経験リスク最小化アルゴリズムとして提案でき、理論的な一般化も行った。

結局の所、訓練データが十分でないと過剰適合を起こすため、正則化が鍵となってくる。