视听视频字幕
这是我通过使用pytorch框架使用MSR-VTT数据集为视频字幕构建的项目,该框架涉及视觉和音频信息。
视频的视觉内容被预处理成固定数量的帧,馈入经过预训练的深度CNN(例如,ResNet 152)以提取特征,并馈入LSTM编码器。 对于音频内容,它们被预处理为MFCC,并馈入另一个LSTM编码器。 然后,将两个LSTM编码器的输出和隐藏状态通过平均池化(或多级注意,以及子总和单元 )进行组合,然后进一步馈入LSTM解码器以生成字幕。
整个项目的基本结构是从导入的。
要运行该项目,您需要以下依赖项:
Python3
运行模型的步骤
第一步是预处理视频和字幕
$ python preprocess.py --video_dir path/to/the/training/video/directory --output_dir path/to/the/features/
2021-07-05 19:33:19
99.52MB
Python
1