appricot’s diary

日々の勉強のメモ

Generating synthetic data in finance: opportunities, challenges and pitfalls ==> 読後メモ

論文

https://www.jpmorgan.com/content/dam/jpm/cib/complex/content/technology/ai-research-publications/pdf-8.pdf

J. P. Morganから2020年に出ている論文を、以下、要約。プライバシー問題を回避するためのデータ生成技術についてサーベイした論文。

 

問題

以下のような場合に、生成データ (Synthetic Data)を利用できないか?

  • リアルデータの獲得・共有が困難な場合
  • Histrical dataが不足している場合
  • Imbalance dataの場合
  • Deep Learning等で、大規模な訓練データが必要な場合

 

データ生成の方法(テーブル型データの場合)

  • k匿名化 (k-anoymity)
    • 同じ属性のレコードがk件以上になるようにデータを変換。
    • 結果として、個人が特定される確率をk/1以下に低減。
  • 差分プライバシー法 (Differential Privacy)
    • データセットに対し、ノイズを付与し、個々人の値をわからないようにする技術。
    • ノイズを大きくすれば匿名化度合いは高まるが、データの有用性は下がる。この2点のトレードオフ
  • Agent-based approach
    • 補足: コンピュータ内にAgent(例えば投資家)を再現し、それらを相互作用させることで、マクロな変数(例えば株価)を生成。

 

データ生成の技法(時系列データの場合)

  • 伝統的なアプローチ: GARCH (Generalized AutoRegressive Conditional Heteroskedasticity)
    • ARモデルでは、時系列データの分散は、常に一定を仮定。
    • GARCHモデルでは、 時系列データにおける分散が、タイミングによって変わることを仮定。
    • 具体的には、ARモデルで、誤差項がホワイトノイズではなく、時期によって可変となったモデルが、GARCHモデル。
  • 最近のアプローチ: QuantGAN

 

Impression

  • 差分プライバシー法もk匿名化も、データを生成するというより、元データを加工してプライバシーを保つイメージか。
  • GARCHやQuantGANはデータを生成するイメージだが、適用対象は株価などで、個々人のデータのプライバシーを保つデータ生成とは異なるイメージか。。
  • この論文は2020年時点でのサーベイだが、昨今の生成AIブームの中で、プライバシー問題回避のためのデータ生成技術にも、何か新しい手法が出てきているのか、気になるところ。

 

分かりやすい日本語文献へのリンク

    • k匿名化: こちらのNECさんの記事が分かりやすい。
    • 差分プライバシー法: こちらの日経XTECHさんの記事が分かりやすい。
    • 差分プライバシー法: こちらのプライバシーテック研究所さんの記事も、分かりやすい。
    • GARCH: こちらのGMO・グループ研究開発本部さんのブログ記事が、分かりやすい。