SynthPop SynthPop使用高斯系脉生成表格综合数据。 动机 我们想对{ X , y }的联合分布建模,以便可以绘制更多样本。 从统计上相同的分布中获取更多样本可以(a)减少过度拟合或(b)保留隐私(通过创建具有相同统计属性的数据集而不会揭示底线)。 例子 您可以从以下分布中获得一些样本。 借助SynthPop,您可以通过(a)将高斯连接数拟合到这些观测值,以及(b)从该多元高斯中抽取样本来从该分布中生成更多样本。 from SynthPop import Copula data = np . load ( "data.npy" ) # ground truth of 100 samples Generator = Copula () Generator . fit ( data ) # fit a Guassian so it has a similar distr
2021-02-17 22:06:22 224KB synthetic-data gaussian-copula JupyterNotebook
1