Generating synthetic data in finance: opportunities, challenges and pitfalls ==> 読後メモ
論文
J. P. Morganから2020年に出ている論文を、以下、要約。プライバシー問題を回避するためのデータ生成技術についてサーベイした論文。
問題
以下のような場合に、生成データ (Synthetic Data)を利用できないか?
- リアルデータの獲得・共有が困難な場合
- Histrical dataが不足している場合
- Imbalance dataの場合
- Deep Learning等で、大規模な訓練データが必要な場合
データ生成の方法(テーブル型データの場合)
- k匿名化 (k-anoymity)
- 同じ属性のレコードがk件以上になるようにデータを変換。
- 結果として、個人が特定される確率をk/1以下に低減。
- 差分プライバシー法 (Differential Privacy)
- Agent-based approach
- 補足: コンピュータ内にAgent(例えば投資家)を再現し、それらを相互作用させることで、マクロな変数(例えば株価)を生成。
データ生成の技法(時系列データの場合)
- 伝統的なアプローチ: GARCH (Generalized AutoRegressive Conditional Heteroskedasticity)
- ARモデルでは、時系列データの分散は、常に一定を仮定。
- GARCHモデルでは、 時系列データにおける分散が、タイミングによって変わることを仮定。
- 具体的には、ARモデルで、誤差項がホワイトノイズではなく、時期によって可変となったモデルが、GARCHモデル。
- 最近のアプローチ: QuantGAN
Impression
- 差分プライバシー法もk匿名化も、データを生成するというより、元データを加工してプライバシーを保つイメージか。
- GARCHやQuantGANはデータを生成するイメージだが、適用対象は株価などで、個々人のデータのプライバシーを保つデータ生成とは異なるイメージか。。
- この論文は2020年時点でのサーベイだが、昨今の生成AIブームの中で、プライバシー問題回避のためのデータ生成技術にも、何か新しい手法が出てきているのか、気になるところ。