变分自编码器 (VAE) + 迁移学习 (ResNet + VAE)
该存储库在 PyTorch 中实现了 VAE,使用预训练的 ResNet 模型作为其编码器,使用转置卷积网络作为解码器。
数据集
1. MNIST
数据库包含 60,000 张训练图像和 10,000 张测试图像。 每个图像均保存为28x28矩阵。
2. CIFAR10
数据集包含10个类别的60000个32x32彩色图像,每个类别6000个图像。
3. Olivetti 人脸数据集
脸数据集由 40 个不同主题的 10 张 64x64 图像组成。
模型
模型包含一对编码器和解码器。 编码器 将 2D 图像x压缩为较低维度空间中的向量z ,该空间通常称为潜在空间,而解码器 接收潜在空间中的向量,并在与编码器输入相同的空间中输出对象。 训练目标是让encoder和decoder的组合“尽可能接近identity”。
1