概要
パンハウスゼミのサマリです。
テーマ : Orthogonal Random Forestに関する3本。
スライドリンク : 追記予定
発表者 : mkato
1本目
題名 : Generalized Random Forests
Paperリンク : https://arxiv.org/abs/1610.01271
新規性 : Causal Forest(因果推論に特化したランダムフォレスト)の進化形、GRF(一般化ランダムフォレスト)を提案。
ポイント①:類似重み αをどうやって決めるか
・処置効果(Treatment effect)では「近いサンプルを見つける」ことが重要。
・処置効果を推定したい(テストデータの)xそれぞれに類似重み α_i(x)を定義することで、「テストデータ間の近さ」を定義できる。(そして「このデータは『近い』から、処置効果も『近い』だろう」と推測できる)
・従来はカーネル法などでαを決めていたが、本論文ではRF(ランダムフォレスト)を用いた。
・具体的には、「木がB本あり、そのうちK本でサンプルx1とx2が同じ葉に入っていれば、x1とx2の近さはK/B」と考えられる。
・普通の回帰問題に適用すると通常のRFになるのでGRFと呼んでいる。
ポイント②:木の分割はどうするか
・ふつうのRF(BreimanのRF)だと「あてはまり」を考えるけど、それが定義できないのでエントロピーを考える。
ポイント③:計算量をどう削減するか
・子ノード間の推定量の差を表す指標を大きくするようにサンプルを分割したい。
・でも、分割の全ての候補に対して指標を計算するのは計算量的に大変。
・そこで、子ノードにおける推定量を勾配法と親ノードにおける推定量を用いて近似することで、計算量を削減する。(論文中で理論解析付き)
まとめ:GRFを用いることで今までできなかった色々な推論ができるようになった。
局外母数:NNの中間層の重みなど、値そのものには興味がないパ ラメータのこと
2本目
題名 : Double/Debiased Machine Learning for Treatment and Causal Parameters
Paperリンク : https://arxiv.org/abs/1608.00060
新規性 : 詳細は追記予定。
まとめ:高次元の局外母数を含むセミパラメトリックモデルにおいて、正則化による局外母数のバイアス(過学習防止の正則化によって発生する推定量のバイアス)が関心のあるパラメータに与える影響を軽減できた。
3本目
題名 : Orthogonal Random Forest for Causal Inference
Paperリンク : https://arxiv.org/abs/1806.03467
新規性 : 上記2本を組み合わせてORF(直交ランダムフォレスト)を提案。
まとめ:GRFにおいて、パラメータ推定量の正則化バイアスを下げる事ができた。