To tune or note to tune? Adapting Pretrained Representations to Diverse tasks ==> 読後メモ
論文
こちらの論文の内容を、要約。
概要
- Tranfer Learningは、2つのStageから構成
- Pre-training: 汎用的な入力データのRepresentationを学習 (例:単語のベクトル表現を学習)
- Adaptation: そのRepresentationを新たな問題に提供 (例:そのベクトル表現を用いて、与えられた文章のポジネガ分類)
- Transfer Learningには、2つのパラダイムがある。この論文では、下記2つの手法を、BERT及びELMoを例にとって、比較。
- Feature-extraction: Pre-trainモデルのWeightは、どのようなDownstream tasksに対しても固定。1つのPretrained representationを、様々なDownstream tasksに利用。
- Fine-tunning: Pre-trainモデルのWeightsを、個々のDownstream tasksに対して調整。Downstream tasksによって、Pretrained representationをカスタマイズ。
Adaptationの定義
- Feature-extraction:
- モデルは、Pretrained modelと、Task specific modelの2つ。
- BERT, ELMo共に、入力データのrepresentations表現を、Internal layerから抽出。
- Adaptation phaseにおいて、それを入力にして、Task-specificなモデルを構築。
- Fine-tunning:
- モデルは、Pretrained modelのみ。それをTask-specificになるように再学習。
- Pre-trained modelに対して、Downstream tasksに応じたSoftmax Layerを追加。
実験結果
- Fine-tunningとFeature-extractionのPerformance差は、小さめ。
- Semantic textual similarity(テキストの類似度計測)では、ELMoは、Feature-extractionのパフォーマンスが高い。逆に、BERTは、Fine-tunningのパフォーマンスが高い。
- Semantic textual similarityでは、ELMoよりBERTのパフォーマンスが高い。理由は、Pretraining時のタスク(Next-sentence prediction)とDownstream tasksが類似であるため。過去の研究によれば、Pretraining時のタスクと、Downstream tasksが類似していると、高いパフォーマンスが出やすい。
追加パラメータの影響
- Named Entity Recognitionタスクでは、ElMoはFeature-extractionが優位。BERTはFine-tunningが優位。両者に、パラメータを追加してパフォーマンスを比較。
- Feature-extractionの場合、追加パラメータでパフォーマンスが向上。
- Fine-tunningの場合、追加パラメータはパフォーマンス向上に寄与せず。
Souce DomainとTarget Domainの差の影響
- BERT & Feature-extractionにおいて、(a)(b)の間に関係がないことを確認。
結論
- パフォーマンスは、Pretraining時のタスクと、Downstream tasksの類似度に依存。
- それらが類似しているほど、高いパフォーマンス。