Recursive partitioning for heterogeneous causal effects ==> 読後メモ
Paper
Preparation
- 決定木(CART)
- 与えられたデータ(X,Y)について、葉ノードに含まれるデータ(Y)が均質になるように、木を作っていく。
- 例えば、あるデータを男性、女性に分類するタスクがあったとして、ある葉は男性ばかり、ある葉は女性ばかり・・という風に分類できると、嬉しい。
- この均質さを測る指標として、ジニ不純度などが利用される。
- 与えられたデータ(X,Y)について、葉ノードに含まれるデータ(Y)が均質になるように、木を作っていく。
- Variance
Summary
- 個々人のCausal Effectを推定する方法として、Causal Treeという方法を提案。具体的には、決定木を利用して推定する。
- 普通に決定木を用いた場合(Adaptive Approachと論文では呼ぶ)
- データをTraining DataとTest Dataに分ける。
- Training Dataを用いて、木を生成し、個々人のCausal Effectを計算。
- 個々人を、決定木を用いて、葉ノードに分類。
- 各葉ノードで、以下の値を計算。
- Causal Effect = 処置群のOutcomeの平均 - 処置なし群のOutcomeの平均
- 木のSplitにあたっては、このCausal Effectが高い群を見つけるように、Splitを繰り返していく。
- Split基準は、Causal effectの最大化
- Test Dataを用いて、モデルを評価。
- Adaptive Approachに対して、以下2つの変更を提案。この方法を、Honest Approachと呼ぶ。
- 1点目: モデルを作る際のデータの利用方法を変更。
- 通常の決定木では、データをTraining Data・Test Dataに2分割する。具体的には、Training Dataを用いて木のSplitや、葉ノードに含まれたデータから予測値の計算を行う。Test Dataを用いて、モデルの評価を行う。
- 本論文では、データをTraining Data・Estimation Data・Test Dataに3分割する。
- Training Dataを用いて木のSplitを実施
- 葉ノードに含まれるEstimationデータを集計することでCausal Effectの予測値を算出
- Test Dataを用いてモデルを評価を行う。
- このようにする理由は、選択された訓練データに含まれる外れ値が、Causal Effectの計算に影響を与えてしまうのを防ぐため、とのこと。
- この部分は、正確には理解できておらず。
- 1点目: モデルを作る際のデータの利用方法を変更。
-
- 2点目: 木のSplitの良し悪しを測る指標(Split基準)を変更
- 具体的には、Split基準=「(1) 各データのCausal Effect」- 「(2) 各葉ノードでのCausal EffectのVariance」とし、この指標を最大化する。
- Splitすることで、より高いCausal Effectとなるようなデータ群を探索している。同時に、細かすぎる分割(葉ノードあたりのデータ数が少なくなりすぎてしまう場合)に対して罰則を与えることで、選択された訓練データに含まれる外れ値にFitしすぎることを防いでいる。
- 2点目: 木のSplitの良し悪しを測る指標(Split基準)を変更
- 提案手法の評価
- Adaptive Approachと比較して、Honest Approachの方が、10-20%程度、MSE(Mean Squared Error)が低い。
Details
- 以下2つの条件が成立していることが前提。
- Unconfoundedness
- 全てのXに対して、P(W|X)が一定。つまり、RCTのような場合。
- この条件は、提案手法を改良することで、緩和可能。具体的には、Propensity Scoreによる重み付け等を行う。しかし、論文最後に、少しだけ記述があるのみで、詳細は触れられておらず。
- Adaptive ApproachにおけるSplit基準 (See page 8)
- Split基準 = 「Training Dataにおける各データポイントのCausal effectの2乗」の平均
- Split基準は、Training Dataのみから計算。
- このSplit基準の場合、Over-fittingの可能性が高くなってしまう。理由は、単純に、Causal effectの最大化を行っており、木の深さ・複雑さに対する罰則がないため。その結果、Over-fitting(葉あたりのデータ数が少なくなり、バリアンスが上昇)が起きる可能性が高くなる。
- Honest ApproachにおけるSplit基準 (See page 8)
- Split基準 = 第1項 - 第2項
- 第1項 = 「Training Dataにおける各データポイントのCaual effectの2乗」の平均
- 第2項 = 「各葉ノードにおけるCausal EffectのVariance」の合計 / (Training Data数^-1 + Estimation Data数^-1)
- ここでいうVarianceとは、「全データを用いて計算したCausal Effectと、Training Dataのみから計算したCausal Effectの偏差」の平均。すなわち、Training/Estimation/Testデータの選び方によって生じる誤差(=過学習の度合い)を指す。
- この部分は、正確には理解できておらず、誤った解釈をしている可能性あり
- Split基準は、Training Dataと、Estimation Dataのサイズのみから計算できる。Estimation Dataの中身は、利用しない。
- 木が複雑になりすぎる場合(例えば、葉のサイズが小さくなりすぎる場合)に、第2項が罰則として働く。
Impression
- Honest Approachにおいて、データをTraining, Estimation, Testと3分割し、Training Dataは木のSplitのみに利用し、Estimation DataはCausal Effectの計算のみに利用しているが、このことの効果・利点が、正確に理解できず。
- 提案された木のSplit基準において、Causal EffectのVariance計算を行っているが、この計算方法を、正確には理解できず。
- Honest ApproachのSplit基準の第2項