Estimation and Inference of Heterogeneous Treatment Effects using Random Forest ==> 読後メモ
Paper
Summary
- Causal Treeを、Random Forestのようにアンサンブル学習とした論文
- 前提知識の準備
- Sampling without replacement: 非復元抽出。重複を認めずに、サンプリングしていくこと。
- Random Forestの場合、以下のような処理を行う(式11)。
- 訓練データの一部を取り出し(Subsampling)、決定木を作る。
- これを、N回繰り返す。
- N本の木の平均を、予測結果とする。
- 同様のことをCausal Treeに実施する(式24)。
- 訓練データの一部を取り出し(Subsampling)、Causal Treeを作る。
- これを、N回繰り返す。
- N本の木の平均を、予測結果(推定された処置効果)とする。
- Causal Treeの作り方は、以下2種類がある。いづれもHonest条件を満たす。
- Double-sample Trees
- 訓練データの一部を取り出し(Subsampling)、それを、さらに2分割する。Sabsamplingでは、重複は認めない。
- 片方のデータで、木のSplitを決定。
- 推定される処置効果の2乗が最大化されるようにする(式9)
- もう片方のデータで、各Leafノードでの処置効果を計算。
- Propensity Trees
- Double-sample Trees
- Honest条件とは?
Impression
- Causal Forestにおいて、Subsamplingで、データの重複を許さずにサンプリングする理由はなぜか?が分からず。
- Propensity Treesにおける木のSplit方法のイメージが分からず。
- 各Leafノードに含まれるユーザ属性(X)を、ジニ不純度などを用いて均質にするように分けるイメージか?
- Double Sample TreesとPropensity Treesの使い分けが分からず。どのような問題に対して、どちらを利用すべきか?
- Honest条件の目的は何か?過学習の防止か?
- モデルの評価の部分で、Causal Forestとk-NNの比較を実施しているが、Causal ForestとCausal Treeで、どれぐらい性能の違いがあるのか?が気になった。あえて、Causal Treeをアンサンブル学習化することで、どれぐらい性能が上がるのか?