appricot’s diary

日々の勉強のメモ

Learning Triggers for Heterogenous Treatment Effects ==> 読後メモ

  • Paper
    • Learning Triggers for Heterogeneous Treatment Effects
  • 概要
    • Causal Tree (https://arxiv.org/abs/1504.01132 , Athey and Imbens 2016)に対して、以下2つの改良を実施。
      • 改良1: 介入が連続値で定義されても大丈夫なように改良。
        • 通常のCausal Treeでは、介入は2値(例えば、薬を投与する、しない)を想定。この論文では、この介入が連続量(例えば、薬の投与量)を想定。
        • 各葉では、介入の有無を決める閾値を保持。
          • 各葉の介入効果 = 介入があった場合のYの平均 - 介入がなかった場合のYの平均
            • Yは、例えば、病気が治った(1)か否か(0)
          • 介入量が閾値以上なら介入があったとし、さもなくば介入なしとする。
          • この閾値は、葉ごとに、最適な値を決定。具体的には、各葉において、介入効果が最大となるような閾値を、最適な閾値とする。(Formula-6)
      • 改良2: 木のSplit基準を、汎化誤差が小さくなるように改良。
        • (Athey and Imbens 2016) データをTraining, Testと2分割し、Trainingデータで木の生成と、各葉での介入効果を推定することを、Adaptive ApproachもしくはCT-Aと呼称。
          • 木をSplitする際、1つの親ノードからを2つの子ノード(葉)を作るとして、それぞれのノードの介入効果の和が最大となるように、木をSplitさせる。
        • (Athey and Imbens 2016) 通常の Causal Treeでは、データをTraining, Estimation, Testと3つに分割。その上で、Trainingデータを用いて木を生成し、Estimationデータを用いて、各葉での介入効果を推定。これを論文では、Honest ApproachもしくはCT-Hと呼称。
        • この論文では、新たなApproachとして、CT-Lを提案。この方法では、木をTraining, Validation, Testに分割し、以下を算出。目的は、汎化誤差を小さくすること。 
          • [1] Trainingデータを用いて介入効果の計算。
          • [2] その介入効果と、Validationデータでの介入効果の差をもとに、コストを計算。
          • [1] - λ* [2]が最大となるように、木をSplit。
            • λは、コストの考慮度合いを決めるハイパーパラメータ。
            • 介入効果が最大となるようにしつつ、Validationデータでの介入効果とTrainingデータでの介入効果の差(=汎化誤差)が小さくなるように、Split。
            • Formula-7を参照。
        • このほか、この論文では、CT-HL、CT-HVという方法も提案。
          • ここでは割愛。
    • 提案手法の評価
      • 介入効果が連続の場合
        • 提案手法(CT-L)は、既存手法(CT-H, CT-A)と比較して、明らかに誤差が小さい。
      • 介入効果が2値の場合
        • 提案手法は、介入効果が連続の場合のみならず、2値の場合にも、適用可能。
        • 提案手法(CT-L)は、既存のTree-based手法(CT-H, CT-A)と比較して、明らかに誤差が小さい場合が多い。
        • 提案手法(CT-L)は、既存のTree-based以外の手法(Propensity Score + Logistic Regressionの組み合わせ)と比較しても、誤差が小さい場合が多い。
  • Impression
    • 介入が離散値(2値)の場合について、他手法と比較した際の優劣を、もう少し知りたい。論文中では、Causal Treeとの比較を行っていたが、Causal ForestやMeta Learnersと比較した場合の優劣はどうか?
    • 介入が連続量の場合、介入量の分布によって、結果に違いが出るのか、気になった。介入量が一様分布の場合、2つ山があるタイプの分布の場合などで、精度に影響が出るのかどうか?