txt2video
生成视频,其条件是使用GAN编写文本。 荣誉论文。 此实现包含以下书面实现:
创造你所讲的
GAN
TGANv2
修改后两个以文本为条件。 文本使用Bi-LSTM编码,该Bi-LSTM已经过预训练以生成下一个标记-从内存上来说,该方法与“创建您要说的内容”相同。
另外,为了更有效地捕获鉴别器中的运动,还利用了非局部块(自我注意)。
引入了类似于StackGAN ++的条件信息。 。
对于鉴别器,我们比较两对:
$ {(x_r,c_r),(x_f,c_r)} $
$ {(x_r,c_f),(x_f,c_r)} $
对于生成器,我们仅比较上面的第一对。
x_r是真实视频
x_f是假视频
c_r字幕与视频正确关联
c_f的字幕与视频不相关
标准GAN损耗是首选的,因为1个判别步骤与1个生成器步骤。
另外,我通过以下方法对非相关性损失进行了实验:
$(
2022-05-24 12:47:49
24.73MB
TeX
1