从开源项目 网站: : 文档: : 仓库: : 执照: 发展状况: 概述 CTGAN是用于单个表数据的基于深度学习的合成数据生成器的集合,这些数据生成器能够从真实数据中学习并生成高保真度的合成克隆。 当前,该库论文实现在提出的CTGAN和TVAE模型。 有关这些型号的更多信息,请查阅相应的用户指南: 。 。 安装 要求 CTGAN已在 3.6、3.7上进行开发和测试 从PyPI安装 推荐的安装CTGAN的方法是使用 : pip install ctgan 这将从提取并安装最新的稳定版本。 用conda安装 CTGAN也可以使用安装: conda install -c sdv-dev -c pytorch -c conda-forge ctgan 这将从提取并安装最新的稳定版本。 使用范例 :warning_selector: 警告:如果您只是开始使用综合数据,我们建议您使用SDV库,该库提供
1
一个从开源项目 综合数据生成项目的指标 网址: : 文档: : 仓库: : 执照: 发展状况: 概述 SDMetrics库提供了一组与数据集无关的工具,用于通过将综合数据库与建模后的真实数据库进行比较来评估综合数据库的质量。 它支持多种数据模式: 单列:比较代表各个列的一维numpy数组。 列对:比较pandas.DataFrame列如何pandas.DataFrame关联(以2组为一组)。 单个表:比较整个表,以pandas.DataFrame表示。 多表:将以python dict表示的多表和关系数据集与以pandas.DataFrame传递的多个表进行pandas.DataFrame 。 时间序列:比较代表事件顺序的表格。 它包括各种指标,例如: 使用统计检验比较实际和合成分布的统计量度。 使用机器学习来尝试区分真实数据和合成数据的检测指标。 效能
2021-11-06 02:25:57 348KB quality metrics synthetic-data Python
1
SynthPop SynthPop使用高斯系脉生成表格综合数据。 动机 我们想对{ X , y }的联合分布建模,以便可以绘制更多样本。 从统计上相同的分布中获取更多样本可以(a)减少过度拟合或(b)保留隐私(通过创建具有相同统计属性的数据集而不会揭示底线)。 例子 您可以从以下分布中获得一些样本。 借助SynthPop,您可以通过(a)将高斯连接数拟合到这些观测值,以及(b)从该多元高斯中抽取样本来从该分布中生成更多样本。 from SynthPop import Copula data = np . load ( "data.npy" ) # ground truth of 100 samples Generator = Copula () Generator . fit ( data ) # fit a Guassian so it has a similar distr
2021-02-17 22:06:22 224KB synthetic-data gaussian-copula JupyterNotebook
1