本文的目的是解释Conditional Tabular GANs的工作原理,因为目前我还没有看到类似这样的文章。 表格数据生成是一个不断发展的研究领域。 CTGANs 论文已成为许多其他机器学习架构的基础,这些架构如今构成了该研究领域的最新技术。
为什么要生成表格数据?
我们都知道如何使用生成对抗网络 (GAN) 生成图像数据。 我们现实中最常用的数据类型是表格数据。 表格数据是结构化的,在训练机器学习模型时通常更容易处理。 然而,虽然文本数据的生成方式和图形数据差不多,但是在生成表格数据时,要制作一个性能良好的模型,实际上会使事情复杂化很多。
本文的目标是了解 CTGAN 的工作原理。 为此,我将首先对 GAN 和表格数据进行简要说明。 然后我将介绍原始 CTGAN 论文中描述的架构。 最后,我将通过一个使用 Python 的示例实现。
回顾 GAN
GAN 属于深度学习生成器的分支。 这是一个监督学习问题,我们有一组真实数据,我们希望通过使用生成器来扩充这个数据集。 GAN 学习生成样本与学习样本的分布有着根本的不同
GAN 由两个神经网络:生成器和鉴别器组成。 生成器
1