appricot’s diary

日々の勉強のメモ

Can ChatGPT Decipher Fedspeak? ==> 読後メモ

概要

こちらの論文を要約。FOMCのアナウンス文書を、ChatGPTを用いて、鳩派と鷹派に分類する論文。

papers.ssrn.com

 

ChatGPTを用いたFOMC文書の分類

  • 2010-2020年の間に実施されたFOMCのアナウンスを利用。FOMCは年8回。
  • そこからダンラムに500文を選び、Policy stanceを人力で付与。Plicy stanceは、鳩派、ほぼ鳩派、中立、ほぼ鷹派、鷹派の5種類。
    • 鳩は緩和・利下げより。鷹は引き締め・利上げより。
  • F1-ScoreやBalanced Accuracyなどを用いて、それぞれのラベル毎に評価。Balanced Accuracyとは、PositiveケースにしめるTrue-Positiveの割合と、NegativeケースにしめるTrue-Negativeの値の平均。
  • GPT3.5, BERT, 辞書ベースの手法でのパフォーマンスを比較。GPT3.5が最も高いパフォーマンス。
    • 人間の場合、Neutralと分類する場合が3割以上を占めるが、GPT3.5, BERTの場合、Neutralと分類した場合は1割未満。GPT3.5, BERTは、若干偏りがある分類結果。
    • GPT3.5の場合、パフォーマンスは最良だが、それでも、F1-Scoreが0.5を超えたのは、5クラス中1クラスのみ。
  • ラベル付きの400文用いて、GPT3.5をFine-tunning。その結果、パフォーマンスがさらに改善。
    • 5クラス中4クラスで、F1-Scoreが0.5を超えた。
  • {GPT3.5、GPT4、人間}で、分類の理由を比較
    • 両GPTとも、人間に近い推論ロジック
    • GPT4のほうが、良い人間に近い。

 

Narrative Approachに関する実験

  • Narrative approachとは、FOMCの文書など様々な文書から、金融政策ショック(Monetary Policy Shock)があったタイミングを割り出す方法。金融政策ショックとは、インフレに伴う金利の変更など、金融政策の変曲点を指す。
  • 通常、人間が、この作業を行うが、GPT3.5, GPT4に同様の作業をさせた場合について、評価。
  • データとして、以下のものを利用。
    • FOMCのアナウンスの書き起こし。1946年 ~ 2017年。
    • 2017年 ~ 2023年のFOMCの議事録。
  • 文書と一緒に、以下のPromptをGPTに与える。
    • 金融政策の専門家として、与えられたテキストが金融政策ショックを含むかどうかを判断するのがあなたの仕事です。金融政策ショックとは、現在または将来の実際の経済活動とは関係のない金融政策の動きを指します。これらのショックは、経済が安定している場合でも、政策立案者が現在のインフレーション水準に対する懸念から、通貨供給量金利を変更するときに発生します。これらの場合、政策立案者は生産量や失業率などのネガティブな影響を受け入れる必要があります。 提供されたテキストを分析して、以下の要因に基づいて金融政策ショックの基準を満たすかどうかを判断してください。
      • 政策立案者は経済の総生産が十分な状態であると信じていましたか?
      • 政策立案者はインフレのために通貨供給量金利を変更しましたか?
      • 政策立案者は、生産量と失業に対する潜在的な不利な影響を理解し、受け入れましたか?
    • 参考の例を考慮して、提供されたテキストが類似のシナリオを示しているかどうかを評価してください。もし示している場合、なぜ金融政策ショックの基準を満たすか説明してください。もし満たしていない場合、なぜ基準を満たさないかについて簡単に説明してください。
  • このプロンプトのポイントは、以下3点。
    • 金融政策ショックの定義を明確に記載。
    • 定義にしたがって分析をお願いしている点。
  • 人間が見つけた金融政策ショックについて、GPT4も同様に発見。加えて、人間が見つけていない金融政策ショックも、GPT4は発見。

 

Impression

  • 論文に記載はなかったが、GPT4の場合に、分類タスクをやらせた場合の精度も、気になる。
  • Fine-tunningの効果は、大きいことが読み取れる。Fine-tunningなしだと、F1-Scoreが5クラス中4クラスで0.5未満。あまり良いクオリティの分類器とは思えず。Fine-tunningすることで、5クラス中4クラスでF1-Scoreは0.5以上となり、ようやく使える分類器・・といった印象。
  • GPT3.5をFine-tunningした場合のラベル付き文の数が400文だったが、これで十分な量なのか、気になる。この分量によって、どれぐらいパフォーマンスが変わってくるのかが、実用上は重要。
  • 論文に記載されているPrompt例は、他でも応用できそう。人間がやっていたタスクをGPTで置き換える場合、いかにプロンプトで、人間の判断基準を明文化するかが、重要そう。