Estimation and Inference of Heterogeneous Treatment Effects using Random Forest ==> 読後メモ

Paper

arxiv.org

Summary

Causal Treeを、Random Forestのようにアンサンブル学習とした論文
- Recursive partitioning for heterogeneous causal effects ==> 読後メモ - appricot’s diary
前提知識の準備
- Sampling without replacement: 非復元抽出。重複を認めずに、サンプリングしていくこと。
Random Forestの場合、以下のような処理を行う(式11)。
- 訓練データの一部を取り出し(Subsampling)、決定木を作る。
- これを、N回繰り返す。
- N本の木の平均を、予測結果とする。
同様のことをCausal Treeに実施する(式24)。
- 訓練データの一部を取り出し(Subsampling)、Causal Treeを作る。
- これを、N回繰り返す。
- N本の木の平均を、予測結果（推定された処置効果）とする。
Causal Treeの作り方は、以下2種類がある。いづれもHonest条件を満たす。
- Double-sample Trees
  - 訓練データの一部を取り出し(Subsampling)、それを、さらに2分割する。Sabsamplingでは、重複は認めない。
  - 片方のデータで、木のSplitを決定。
    - 推定される処置効果の2乗が最大化されるようにする(式9)
  - もう片方のデータで、各Leafノードでの処置効果を計算。
- Propensity Trees
  - 訓練データの一部を取り出す(Subsampling)。ここで、重複は認めない。
  - X, Wのみを用いて、木のSplitを決定。
    - Wは処置の有無を示す。処理の結果(Y)を利用しないのがポイント。
    - 例えば、CARTと同様に、ジニ不純度を、最適化の指標として利用。
  - 各Leafノードで、処置結果(Y)を用いて、処置効果を計算。
Honest条件とは?
- それぞれの訓練データは、木のSplit決定か、各Leafノード内での処置効果の推定か、いづれか一方にしか使ってはならない。

Impression

Causal Forestにおいて、Subsamplingで、データの重複を許さずにサンプリングする理由はなぜか？が分からず。
Propensity Treesにおける木のSplit方法のイメージが分からず。
- 各Leafノードに含まれるユーザ属性(X)を、ジニ不純度などを用いて均質にするように分けるイメージか?
Double Sample TreesとPropensity Treesの使い分けが分からず。どのような問題に対して、どちらを利用すべきか？
Honest条件の目的は何か？過学習の防止か？
モデルの評価の部分で、Causal Forestとk-NNの比較を実施しているが、Causal ForestとCausal Treeで、どれぐらい性能の違いがあるのか？が気になった。あえて、Causal Treeをアンサンブル学習化することで、どれぐらい性能が上がるのか？