To tune or note to tune? Adapting Pretrained Representations to Diverse tasks ==> 読後メモ

こちらの論文の内容を、要約。

Tranfer Learningは、２つのStageから構成
- Pre-training: 汎用的な入力データのRepresentationを学習 (例：単語のベクトル表現を学習)
- Adaptation: そのRepresentationを新たな問題に提供 (例：そのベクトル表現を用いて、与えられた文章のポジネガ分類）
Transfer Learningには、２つのパラダイムがある。この論文では、下記２つの手法を、BERT及びELMoを例にとって、比較。
- Feature-extraction: Pre-trainモデルのWeightは、どのようなDownstream tasksに対しても固定。1つのPretrained representationを、様々なDownstream tasksに利用。
- Fine-tunning: Pre-trainモデルのWeightsを、個々のDownstream tasksに対して調整。Downstream tasksによって、Pretrained representationをカスタマイズ。

Feature-extraction:
- モデルは、Pretrained modelと、Task specific modelの２つ。
- BERT, ELMo共に、入力データのrepresentations表現を、Internal layerから抽出。
- Adaptation phaseにおいて、それを入力にして、Task-specificなモデルを構築。
Fine-tunning:
- モデルは、Pretrained modelのみ。それをTask-specificになるように再学習。
- Pre-trained modelに対して、Downstream tasksに応じたSoftmax Layerを追加。

Fine-tunningとFeature-extractionのPerformance差は、小さめ。
Semantic textual similarity（テキストの類似度計測）では、ELMoは、Feature-extractionのパフォーマンスが高い。逆に、BERTは、Fine-tunningのパフォーマンスが高い。
Semantic textual similarityでは、ELMoよりBERTのパフォーマンスが高い。理由は、Pretraining時のタスク（Next-sentence prediction)とDownstream tasksが類似であるため。過去の研究によれば、Pretraining時のタスクと、Downstream tasksが類似していると、高いパフォーマンスが出やすい。

Named Entity Recognitionタスクでは、ElMoはFeature-extractionが優位。BERTはFine-tunningが優位。両者に、パラメータを追加してパフォーマンスを比較。
Feature-extractionの場合、追加パラメータでパフォーマンスが向上。
Fine-tunningの場合、追加パラメータはパフォーマンス向上に寄与せず。

BERT & Feature-extractionにおいて、(a)(b)の間に関係がないことを確認。
- (a) Pretrainingで利用したコーパスと、Downstream tasksで利用したコーパスの分布の差（Source domainとTarget domainの違い）
- (b) モデルのパフォーマンス

Pretrain時のタスクと、Downstream tasksの類似度がパフォーマンスに影響する点は、納得感あり。
Pretrain時のドメイン（つまりSource Domain）と、Downstream tasksのドメイン（つまりTarget Domain）の類似度が、パフォーマンスにそれほど影響しない点は、意外。自分の中では、未だに腹落ちせず。この論文では、コーパスの分布を、Domainの類似度としているが、画像処理やユーザ行動分析など他の分野でも、「ドメイン類似度がパフォーマンスに影響しない」点が成り立つのか、気になる。

appricot’s diary