Building a Credit Risk Model using Transfer Learning and Domain Adaptation ==> 読後メモ

Paper

Title: Building a Credit Risk Model using Transfer Learning and Domain Adaptation
Frontiers | Credit Risk Modeling Using Transfer Learning and Domain Adaptation

Summary

概要
- Transfer learningをCredit Scoringに応用
前提：
- Source Domain（CD)はデータ量が多く、Target Domain（MD, SB)はデータ量が少ない。また、３つのドメインで、登場する入力変数の種類は同一。予測対象は２値で、Default or not。各ドメインの概要は、下記の通り。
  - CD:Credit Card関連のローン
  - MD:医療関連のローン
  - SB:ビジネス関連のローン
Transfer learning
- Source Domainでニューラルネットワークのモデルを学習しておき、Target domainでニューラルネットワークの最後のレイヤーのみ再学習する。すると、Target Domainにおけるモデル精度が、Baselineと比較して向上。
- MD: AUCで7.0%向上
- SB: AUCで3.6%向上
Domain Adaptationの概要:
- 同一の入力変数であっても、Source DomainとTarget Domainで、分布が異なる場合がある。このとき、Souce Domainの入力変数を、Target Domainの入力変数の分布に類似するように変形した上で、Transfer learningを適用することを、Domain Adaptationと呼ぶ。
Domain Adaptationの効果：
- (Pattern-1) 全変数にDomain Adaptationを適用した場合、精度は下がった。
  - MD:AUCで、-27.7%減少
  - SB:AUCで、-19.2%減少
- (Pattern-2) KS-Statisticsの値が高い変数に限定してDomain Adaptationを適用したら、精度は向上。
  - KS-Statisticsとは、２つの分布間の差を測る指標。差が大きい場合、KS-Statisticsの値も大きくなる。
  - MD: AUCで、+2.7%向上
  - SB:AUCで、+0.3%向上
- (Pattern-3) KS-Statisticsの値が高い変数に限定してDomain Adaptationを適用 + KS-Statisticsの値が高い変数と関連した変数にも、Domain Adaptationを適用したら、さらに精度は向上。
  - MD:AUCで、+3.3%向上

Impression

Transfer Learning適用による効果は明らかで、とてもPositiveな結果。
Domain Adaptationの効果については、やや疑問が残る。Target Domainによって、Doman Adaptationの効果が異なっており、MDでは高い効果が得られているが、SBでは効果は、かなり小さい。Domain Adaptationが効果的なケースは、限られる感じか？
Domain Adaptationを適用する入力変数の選択に、職人芸的な部分が入っているのが気になる。KS-Statisticsで、どのような値以上ならDomain Adaptationを適用すべきなのか？また、Pattern-3のようなケースも、「関連した変数」の定義に、ドメイン知識が使われており、実際に利用するとなった場合には、不安が残る。

appricot’s diary

日々の勉強のメモ

Building a Credit Risk Model using Transfer Learning and Domain Adaptation ==> 読後メモ

Paper

Summary

Impression