appricot’s diary

日々の勉強のメモ

Recursive partitioning for heterogeneous causal effects ==> 読後メモ

Paper

arxiv.org

Preparation

  • 決定木(CART)
    • 与えられたデータ(X,Y)について、葉ノードに含まれるデータ(Y)が均質になるように、木を作っていく。
      • 例えば、あるデータを男性、女性に分類するタスクがあったとして、ある葉は男性ばかり、ある葉は女性ばかり・・という風に分類できると、嬉しい。
    • この均質さを測る指標として、ジニ不純度などが利用される。
  • Variance
    • 機械学習における誤差は、BiasとVarianceに分解できる。
    • Biasは、モデルがどれだけ訓練データにFitしているかを表す。モデルの表現力が高いほど(複雑なほど)、Biasは小さくなる。
    • Varianceとは、訓練データ・テストデータがあった場合に、テストデータの選び方によって生じる誤差。モデルの表現力が高いほど(複雑なほど)、Varianceは高くなりがちである(過学習しがち)

Summary

  • 個々人のCausal Effectを推定する方法として、Causal Treeという方法を提案。具体的には、決定木を利用して推定する。
  • 普通に決定木を用いた場合(Adaptive Approachと論文では呼ぶ) 
    • データをTraining DataとTest Dataに分ける。
    • Training Dataを用いて、木を生成し、個々人のCausal Effectを計算。
      • 個々人を、決定木を用いて、葉ノードに分類。
      • 各葉ノードで、以下の値を計算。
        • Causal Effect = 処置群のOutcomeの平均 - 処置なし群のOutcomeの平均
      • 木のSplitにあたっては、このCausal Effectが高い群を見つけるように、Splitを繰り返していく。
        • Split基準は、Causal effectの最大化
    • Test Dataを用いて、モデルを評価。
  • Adaptive Approachに対して、以下2つの変更を提案。この方法を、Honest Approachと呼ぶ。
    • 1点目: モデルを作る際のデータの利用方法を変更。
      • 通常の決定木では、データをTraining Data・Test Dataに2分割する。具体的には、Training Dataを用いて木のSplitや、葉ノードに含まれたデータから予測値の計算を行う。Test Dataを用いて、モデルの評価を行う。
      • 本論文では、データをTraining Data・Estimation Data・Test Dataに3分割する。
        • Training Dataを用いて木のSplitを実施
        • 葉ノードに含まれるEstimationデータを集計することでCausal Effectの予測値を算出
        • Test Dataを用いてモデルを評価を行う。
      • このようにする理由は、選択された訓練データに含まれる外れ値が、Causal Effectの計算に影響を与えてしまうのを防ぐため、とのこと。
        • この部分は、正確には理解できておらず。
    • 2点目: 木のSplitの良し悪しを測る指標(Split基準)を変更
      • 具体的には、Split基準=「(1) 各データのCausal Effect」- 「(2) 各葉ノードでのCausal EffectのVariance」とし、この指標を最大化する。
      • Splitすることで、より高いCausal Effectとなるようなデータ群を探索している。同時に、細かすぎる分割(葉ノードあたりのデータ数が少なくなりすぎてしまう場合)に対して罰則を与えることで、選択された訓練データに含まれる外れ値にFitしすぎることを防いでいる。
  • 提案手法の評価
    • Adaptive Approachと比較して、Honest Approachの方が、10-20%程度、MSE(Mean Squared Error)が低い。

Details

  • 以下2つの条件が成立していることが前提。
    • Unconfoundedness
    • 全てのXに対して、P(W|X)が一定。つまり、RCTのような場合。
      • この条件は、提案手法を改良することで、緩和可能。具体的には、Propensity Scoreによる重み付け等を行う。しかし、論文最後に、少しだけ記述があるのみで、詳細は触れられておらず。
  • Adaptive ApproachにおけるSplit基準 (See page 8)
    • Split基準 = 「Training Dataにおける各データポイントのCausal effectの2乗」の平均
    • Split基準は、Training Dataのみから計算。
    • このSplit基準の場合、Over-fittingの可能性が高くなってしまう。理由は、単純に、Causal effectの最大化を行っており、木の深さ・複雑さに対する罰則がないため。その結果、Over-fitting(葉あたりのデータ数が少なくなり、バリアンスが上昇)が起きる可能性が高くなる。
  • Honest ApproachにおけるSplit基準 (See page 8)
    • Split基準 = 第1項 - 第2項
    • 第1項 = 「Training Dataにおける各データポイントのCaual effectの2乗」の平均
    • 第2項 = 「各葉ノードにおけるCausal EffectのVariance」の合計 / (Training Data数^-1 + Estimation Data数^-1) 
    • ここでいうVarianceとは、「全データを用いて計算したCausal Effectと、Training Dataのみから計算したCausal Effectの偏差」の平均。すなわち、Training/Estimation/Testデータの選び方によって生じる誤差(=過学習の度合い)を指す。
      • この部分は、正確には理解できておらず、誤った解釈をしている可能性あり
      • Split基準は、Training Dataと、Estimation Dataのサイズのみから計算できる。Estimation Dataの中身は、利用しない。
    • 木が複雑になりすぎる場合(例えば、葉のサイズが小さくなりすぎる場合)に、第2項が罰則として働く。

 

Impression

  • Honest Approachにおいて、データをTraining, Estimation, Testと3分割し、Training Dataは木のSplitのみに利用し、Estimation DataはCausal Effectの計算のみに利用しているが、このことの効果・利点が、正確に理解できず。
  • 提案された木のSplit基準において、Causal EffectのVariance計算を行っているが、この計算方法を、正確には理解できず。
    • Honest ApproachのSplit基準の第2項