appricot’s diary

日々の勉強のメモ

Generating synthetic data in finance: opportunities, challenges and pitfalls ==> 読後メモ

論文メモ Finance

論文

https://www.jpmorgan.com/content/dam/jpm/cib/complex/content/technology/ai-research-publications/pdf-8.pdf

J. P. Morganから2020年に出ている論文を、以下、要約。プライバシー問題を回避するためのデータ生成技術についてサーベイした論文。

問題

以下のような場合に、生成データ (Synthetic Data)を利用できないか？

リアルデータの獲得・共有が困難な場合
Histrical dataが不足している場合
Imbalance dataの場合
Deep Learning等で、大規模な訓練データが必要な場合

データ生成の方法（テーブル型データの場合）

k匿名化 (k-anoymity)
- 同じ属性のレコードがk件以上になるようにデータを変換。
- 結果として、個人が特定される確率をk/1以下に低減。
差分プライバシー法 (Differential Privacy)
- データセットに対し、ノイズを付与し、個々人の値をわからないようにする技術。
- ノイズを大きくすれば匿名化度合いは高まるが、データの有用性は下がる。この2点のトレードオフ。
Agent-based approach
- 補足: コンピュータ内にAgent(例えば投資家)を再現し、それらを相互作用させることで、マクロな変数(例えば株価)を生成。

データ生成の技法（時系列データの場合）

伝統的なアプローチ: GARCH (Generalized AutoRegressive Conditional Heteroskedasticity)
- ARモデルでは、時系列データの分散は、常に一定を仮定。
- GARCHモデルでは、時系列データにおける分散が、タイミングによって変わることを仮定。
- 具体的には、ARモデルで、誤差項がホワイトノイズではなく、時期によって可変となったモデルが、GARCHモデル。
最近のアプローチ: QuantGAN
- Quants-GAN ==> 読後メモ - appricot’s diary

Impression

差分プライバシー法もk匿名化も、データを生成するというより、元データを加工してプライバシーを保つイメージか。
GARCHやQuantGANはデータを生成するイメージだが、適用対象は株価などで、個々人のデータのプライバシーを保つデータ生成とは異なるイメージか。。
この論文は2020年時点でのサーベイだが、昨今の生成AIブームの中で、プライバシー問題回避のためのデータ生成技術にも、何か新しい手法が出てきているのか、気になるところ。

分かりやすい日本語文献へのリンク

- k匿名化: こちらのNECさんの記事が分かりやすい。
- 差分プライバシー法: こちらの日経XTECHさんの記事が分かりやすい。
- 差分プライバシー法: こちらのプライバシーテック研究所さんの記事も、分かりやすい。
- GARCH: こちらのGMO・グループ研究開発本部さんのブログ記事が、分かりやすい。