SynthPop
SynthPop使用高斯系脉生成表格综合数据。
动机
我们想对{ X , y }的联合分布建模,以便可以绘制更多样本。 从统计上相同的分布中获取更多样本可以(a)减少过度拟合或(b)保留隐私(通过创建具有相同统计属性的数据集而不会揭示底线)。
例子
您可以从以下分布中获得一些样本。
借助SynthPop,您可以通过(a)将高斯连接数拟合到这些观测值,以及(b)从该多元高斯中抽取样本来从该分布中生成更多样本。
from SynthPop import Copula
data = np . load ( "data.npy" ) # ground truth of 100 samples
Generator = Copula ()
Generator . fit ( data ) # fit a Guassian so it has a similar distr
1