appricot’s diary

日々の勉強のメモ

Estimation and Inference of Heterogeneous Treatment Effects using Random Forest ==> 読後メモ

Paper

arxiv.org

Summary

  • Causal Treeを、Random Forestのようにアンサンブル学習とした論文
  • 前提知識の準備
    • Sampling without replacement: 非復元抽出。重複を認めずに、サンプリングしていくこと。
  •  Random Forestの場合、以下のような処理を行う(式11)。
    • 訓練データの一部を取り出し(Subsampling)、決定木を作る。
    • これを、N回繰り返す。
    • N本の木の平均を、予測結果とする。
  • 同様のことをCausal Treeに実施する(式24)。
    • 訓練データの一部を取り出し(Subsampling)、Causal Treeを作る。
    • これを、N回繰り返す。
    • N本の木の平均を、予測結果(推定された処置効果)とする。
  • Causal Treeの作り方は、以下2種類がある。いづれもHonest条件を満たす。
    • Double-sample Trees
      • 訓練データの一部を取り出し(Subsampling)、それを、さらに2分割する。Sabsamplingでは、重複は認めない。
      • 片方のデータで、木のSplitを決定。
        • 推定される処置効果の2乗が最大化されるようにする(式9)
      • もう片方のデータで、各Leafノードでの処置効果を計算。
    • Propensity Trees
      • 訓練データの一部を取り出す(Subsampling)。ここで、重複は認めない。
      • X, Wのみを用いて、木のSplitを決定。
        • Wは処置の有無を示す。処理の結果(Y)を利用しないのがポイント。
        • 例えば、CARTと同様に、ジニ不純度を、最適化の指標として利用。
      • Leafノードで、処置結果(Y)を用いて、処置効果を計算。
  • Honest条件とは?
    • それぞれの訓練データは、木のSplit決定か、各Leafノード内での処置効果の推定か、いづれか一方にしか使ってはならない。

Impression

  • Causal Forestにおいて、Subsamplingで、データの重複を許さずにサンプリングする理由はなぜか?が分からず。
  • Propensity Treesにおける木のSplit方法のイメージが分からず。
    • Leafノードに含まれるユーザ属性(X)を、ジニ不純度などを用いて均質にするように分けるイメージか?
  • Double Sample TreesとPropensity Treesの使い分けが分からず。どのような問題に対して、どちらを利用すべきか?
  • Honest条件の目的は何か?過学習の防止か?
  • モデルの評価の部分で、Causal Forestとk-NNの比較を実施しているが、Causal ForestとCausal Treeで、どれぐらい性能の違いがあるのか?が気になった。あえて、Causal Treeをアンサンブル学習化することで、どれぐらい性能が上がるのか?