现有基于时域金字塔的特征提取方法不能学习视频帧和视频段各自之间的时间依赖性信息以及未充分利用视频时域的分层结构信息,造成视频分类特征提取不充分.为此,提出一种基于SRU的多层次多粒度时空域深度特征提取方法.利用卷积神经网络提取视频的低、中、高3个层次的帧特征,构建时域金字塔,同时采用级联SRU学习视频时间依赖性和时域的分层结构特征,通过聚合3个层次的时域金字塔得到视频的多层次多粒度全局特征.在数据集UCF101和HMDB51上的实验结果表明,与DTPP方法、TLE方法相比,该方法提取的特征具有较好的表征能力和鲁棒性.
1