appricot’s diary

日々の勉強のメモ

To tune or note to tune? Adapting Pretrained Representations to Diverse tasks ==> 読後メモ

論文

こちらの論文の内容を、要約。

arxiv.org

 

 

概要

  • Tranfer Learningは、2つのStageから構成
    • Pre-training: 汎用的な入力データのRepresentationを学習 (例:単語のベクトル表現を学習)
    • Adaptation: そのRepresentationを新たな問題に提供 (例:そのベクトル表現を用いて、与えられた文章のポジネガ分類)
  • Transfer Learningには、2つのパラダイムがある。この論文では、下記2つの手法を、BERT及びELMoを例にとって、比較。
    • Feature-extraction: Pre-trainモデルのWeightは、どのようなDownstream tasksに対しても固定。1つのPretrained representationを、様々なDownstream tasksに利用。
    • Fine-tunning: Pre-trainモデルのWeightsを、個々のDownstream tasksに対して調整。Downstream tasksによって、Pretrained representationをカスタマイズ。

 

Adaptationの定義

  • Feature-extraction:
    • モデルは、Pretrained modelと、Task specific modelの2つ。
    • BERT, ELMo共に、入力データのrepresentations表現を、Internal layerから抽出。
    • Adaptation phaseにおいて、それを入力にして、Task-specificなモデルを構築。
  • Fine-tunning:
    • モデルは、Pretrained modelのみ。それをTask-specificになるように再学習。
    • Pre-trained modelに対して、Downstream tasksに応じたSoftmax Layerを追加。

 

実験結果

  • Fine-tunningとFeature-extractionのPerformance差は、小さめ。
  • Semantic textual similarity(テキストの類似度計測)では、ELMoは、Feature-extractionのパフォーマンスが高い。逆に、BERTは、Fine-tunningのパフォーマンスが高い。
  • Semantic textual similarityでは、ELMoよりBERTのパフォーマンスが高い。理由は、Pretraining時のタスク(Next-sentence prediction)とDownstream tasksが類似であるため。過去の研究によれば、Pretraining時のタスクと、Downstream tasksが類似していると、高いパフォーマンスが出やすい

 

追加パラメータの影響

  • Named Entity Recognitionタスクでは、ElMoはFeature-extractionが優位。BERTはFine-tunningが優位。両者に、パラメータを追加してパフォーマンスを比較。
  • Feature-extractionの場合、追加パラメータでパフォーマンスが向上。
  • Fine-tunningの場合、追加パラメータはパフォーマンス向上に寄与せず。

 

Souce DomainとTarget Domainの差の影響

  • BERT & Feature-extractionにおいて、(a)(b)の間に関係がないことを確認。
    • (a) Pretrainingで利用したコーパスと、Downstream tasksで利用したコーパスの分布の差(Source domainとTarget domainの違い)
    • (b) モデルのパフォーマンス

 

結論

  • パフォーマンスは、Pretraining時のタスクと、Downstream tasksの類似度に依存。
  • それらが類似しているほど、高いパフォーマンス。

 

Impression

  • Pretrain時のタスクと、Downstream tasksの類似度がパフォーマンスに影響する点は、納得感あり。
  • Pretrain時のドメイン(つまりSource Domain)と、Downstream tasksのドメイン(つまりTarget Domain)の類似度が、パフォーマンスにそれほど影響しない点は、意外。自分の中では、未だに腹落ちせず。この論文では、コーパスの分布を、Domainの類似度としているが、画像処理やユーザ行動分析など他の分野でも、「ドメイン類似度がパフォーマンスに影響しない」点が成り立つのか、気になる。