这是一个在UCF101上使用3D RNN/CNN+RNN 进行视频分类的教程,基于Pytorch实现。
数据集
UCF101 含有包括13320个视频与101个动作,视频有不同的视觉长度,视频画面大小也不一样,最小的视频只有29帧。为了减少视频预处理工作,我们之间使用feichtenhofer预处理结束的数据。
https://github.com/feichtenhofer/twostreamfusion
模型
3D CNN
使用一些3D核和通道数N,来解决视频输入,视频可以看成是3D 的图片,并使用了批归一化与dropout。
CNN+RNN (CRNN)
CRNN 使用了CNN作为
2022-03-01 10:04:24
215KB
c
OR
rnn
1