Recursive partitioning for heterogeneous causal effects ==> 読後メモ

Paper

arxiv.org

Preparation

決定木（CART)
- 与えられたデータ（X,Y)について、葉ノードに含まれるデータ(Y)が均質になるように、木を作っていく。
  - 例えば、あるデータを男性、女性に分類するタスクがあったとして、ある葉は男性ばかり、ある葉は女性ばかり・・という風に分類できると、嬉しい。
- この均質さを測る指標として、ジニ不純度などが利用される。
Variance
- 機械学習における誤差は、BiasとVarianceに分解できる。
- Biasは、モデルがどれだけ訓練データにFitしているかを表す。モデルの表現力が高いほど（複雑なほど）、Biasは小さくなる。
- Varianceとは、訓練データ・テストデータがあった場合に、テストデータの選び方によって生じる誤差。モデルの表現力が高いほど（複雑なほど）、Varianceは高くなりがちである（過学習しがち）

Summary

個々人のCausal Effectを推定する方法として、Causal Treeという方法を提案。具体的には、決定木を利用して推定する。
普通に決定木を用いた場合(Adaptive Approachと論文では呼ぶ)
- データをTraining DataとTest Dataに分ける。
- Training Dataを用いて、木を生成し、個々人のCausal Effectを計算。
  - 個々人を、決定木を用いて、葉ノードに分類。
  - 各葉ノードで、以下の値を計算。
    - Causal Effect = 処置群のOutcomeの平均 - 処置なし群のOutcomeの平均
  - 木のSplitにあたっては、このCausal Effectが高い群を見つけるように、Splitを繰り返していく。
    - Split基準は、Causal effectの最大化
- Test Dataを用いて、モデルを評価。
Adaptive Approachに対して、以下2つの変更を提案。この方法を、Honest Approachと呼ぶ。
- 1点目: モデルを作る際のデータの利用方法を変更。
  - 通常の決定木では、データをTraining Data・Test Dataに2分割する。具体的には、Training Dataを用いて木のSplitや、葉ノードに含まれたデータから予測値の計算を行う。Test Dataを用いて、モデルの評価を行う。
  - 本論文では、データをTraining Data・Estimation Data・Test Dataに3分割する。
    - Training Dataを用いて木のSplitを実施
    - 葉ノードに含まれるEstimationデータを集計することでCausal Effectの予測値を算出
    - Test Dataを用いてモデルを評価を行う。
  - このようにする理由は、選択された訓練データに含まれる外れ値が、Causal Effectの計算に影響を与えてしまうのを防ぐため、とのこと。
    - この部分は、正確には理解できておらず。

- 2点目: 木のSplitの良し悪しを測る指標(Split基準)を変更
  - 具体的には、Split基準=「(1) 各データのCausal Effect」- 「(2) 各葉ノードでのCausal EffectのVariance」とし、この指標を最大化する。
  - Splitすることで、より高いCausal Effectとなるようなデータ群を探索している。同時に、細かすぎる分割（葉ノードあたりのデータ数が少なくなりすぎてしまう場合）に対して罰則を与えることで、選択された訓練データに含まれる外れ値にFitしすぎることを防いでいる。
提案手法の評価
- Adaptive Approachと比較して、Honest Approachの方が、10-20%程度、MSE(Mean Squared Error)が低い。

Details

以下2つの条件が成立していることが前提。
- Unconfoundedness
- 全てのXに対して、P(W|X)が一定。つまり、RCTのような場合。
  - この条件は、提案手法を改良することで、緩和可能。具体的には、Propensity Scoreによる重み付け等を行う。しかし、論文最後に、少しだけ記述があるのみで、詳細は触れられておらず。
Adaptive ApproachにおけるSplit基準 (See page 8)
- Split基準 = 「Training Dataにおける各データポイントのCausal effectの2乗」の平均
- Split基準は、Training Dataのみから計算。
- このSplit基準の場合、Over-fittingの可能性が高くなってしまう。理由は、単純に、Causal effectの最大化を行っており、木の深さ・複雑さに対する罰則がないため。その結果、Over-fitting(葉あたりのデータ数が少なくなり、バリアンスが上昇)が起きる可能性が高くなる。
Honest ApproachにおけるSplit基準 (See page 8)
- Split基準 = 第1項 - 第2項
- 第1項 = 「Training Dataにおける各データポイントのCaual effectの2乗」の平均
- 第2項 = 「各葉ノードにおけるCausal EffectのVariance」の合計 / (Training Data数^-1 + Estimation Data数^-1)
- ここでいうVarianceとは、「全データを用いて計算したCausal Effectと、Training Dataのみから計算したCausal Effectの偏差」の平均。すなわち、Training/Estimation/Testデータの選び方によって生じる誤差（=過学習の度合い)を指す。
  - この部分は、正確には理解できておらず、誤った解釈をしている可能性あり
  - Split基準は、Training Dataと、Estimation Dataのサイズのみから計算できる。Estimation Dataの中身は、利用しない。
- 木が複雑になりすぎる場合（例えば、葉のサイズが小さくなりすぎる場合）に、第2項が罰則として働く。

Impression

Honest Approachにおいて、データをTraining, Estimation, Testと3分割し、Training Dataは木のSplitのみに利用し、Estimation DataはCausal Effectの計算のみに利用しているが、このことの効果・利点が、正確に理解できず。
提案された木のSplit基準において、Causal EffectのVariance計算を行っているが、この計算方法を、正確には理解できず。
- Honest ApproachのSplit基準の第2項

appricot’s diary

日々の勉強のメモ

Recursive partitioning for heterogeneous causal effects ==> 読後メモ

Paper

Preparation

Summary

Details

Impression