在UCF101上使用3D CNN/CNN + RNN进行视频分类/动作识别的教程
视频分类 该存储库使用 UCF101 和 PyTorch 为视频分类(或动作识别)构建了一个快速而简单的代码。
视频被视为一个 3D 图像或几个连续的 2D 图像(图 1)。
下面是两个简单的神经网络模型:数据集 UCF101 共有来自 101 个动作的 13,320 个视频。
视频具有不同的时间长度(帧)和不同的 2d 图像大小;
最短的是28帧。
为了避免像 OpenCV 或 FFmpeg 这样的帧提取和转换等痛苦的视频预处理,这里我直接使用了来自 feichtenhofer 的预处理数据集。
如果您想从头开始转换或提取视频帧,这里有一些不错的教程:https://pythonprogramming.net/loading-video-python-opencv-tutorial/ https://www.pyimagesearch.com/2017/02/ 06/faster-video-file-fps-with-cv2-videocapture-and-opencv/ 模型 1. 3
2021-09-01 13:46:32
8.78MB
机器学习
1