3-D convolutional neural networks (3-D-convNets) have been very recently proposed for action recognition in videos, and promising results are achieved. However, existing 3- D-convNets has two “artificial” requirements that may reduce the quality of video analysis: 1) It requires a fixed-sized (e.g., 112×112) input video; and 2)most of the 3-D-convNets require a fixed-length input (i.e., video shots with fixed number of frames). To tackle these issues, we propose an end-to-end pipeline named Two-stream 3-D-convNet Fusion, which can recognize human actions in videos of arbitrary size and length using multiple features. Specifically, we decompose a video into spatial and temporal shots. By taking a sequence of shots as input, each stream is implemented using a spatial temporal pyramid pooling (STPP) convNet with a long short-term memory (LSTM) or CNN-E model, softmax scores of which are combined by a late fusion.We devise the STPP convNet to extract equal-dimensional descriptions for each variable-size shot, andwe adopt theLSTM/CNN-Emodel to learn a global description for the input video using these time-varying descriptions. With these advantages, our method should improve all 3-D CNN-based video analysis methods. We empirically evaluate our method for action recognition in videos and the experimental results show that our method outperforms the state-of-the-art methods (both 2-D and 3-D based) on three standard benchmark datasets (UCF101, HMDB51 and ACT datasets).
2021-09-25 11:29:08 983KB Action recog 3D convoluti
1
Keras中的两流CNN工具 在的基于骨架的动作识别中,提出了两流CNN,用于基于骨架的动作识别。 它将骨架序列映射到图像(坐标x,y,z到图像R,G,B)。 他们专门设计了骨架变压器模块,以自动重新排列和选择重要的骨架关节。 要求 Python3 凯拉斯 h5py matplotlib 麻木 网络架构 该网络主要由Skeleton Transformer , ConvNet , Feature Fusion和Classification四个模块组成。 两个流的输入分别是原始数据(x,y,z)和帧差。 如下图所示: 用法 function / data_generator.py :生成两个流的输入numpy数组 layer / transformer :Keras中的Skeleton Transformer工具层 网络/ :褶皱有四只苍蝇,具有不同的特征融合方式 结果 模型 准确度(
2021-09-25 10:54:30 115KB keras action-recognition skeleton-data Python
1
为视频中的动作识别建立一个简单的模型 只是为了展示如何在Keras中使用Conv3d。 在视频动作识别中使用KTH数据集。 如何建立更好的模型和调整参数取决于您。
2021-09-20 10:07:34 44.7MB Python
1
毕业设计_ZHUKE 2016毕业设计,基于SVM分类器的动作识别系统
2021-09-16 17:31:24 75.77MB 系统开源
1
基于三轴加速度计的动作识别
1
在UCF101上使用3D CNN/CNN + RNN进行视频分类/动作识别的教程 视频分类 该存储库使用 UCF101 和 PyTorch 为视频分类(或动作识别)构建了一个快速而简单的代码。 视频被视为一个 3D 图像或几个连续的 2D 图像(图 1)。 下面是两个简单的神经网络模型:数据集 UCF101 共有来自 101 个动作的 13,320 个视频。 视频具有不同的时间长度(帧)和不同的 2d 图像大小; 最短的是28帧。 为了避免像 OpenCV 或 FFmpeg 这样的帧提取和转换等痛苦的视频预处理,这里我直接使用了来自 feichtenhofer 的预处理数据集。 如果您想从头开始转换或提取视频帧,这里有一些不错的教程:https://pythonprogramming.net/loading-video-python-opencv-tutorial/ https://www.pyimagesearch.com/2017/02/ 06/faster-video-file-fps-with-cv2-videocapture-and-opencv/ 模型 1. 3
2021-09-01 13:46:32 8.78MB 机器学习
1
“ NTU RGB + D”动作识别数据集 “ NTU RGB + D 120”动作识别数据集 “ NTU RGB + D”是用于人类动作识别的大规模数据集。 在我们的CVPR 2016论文。 “ NTU RGB + D 120”是“ NTU RGB + D”数据集的扩展版本。 它在我们的TPAMI 2019论文。 有关数据集的任何可能查询,请联系论文的第一作者。 如何下载数据集 请单击以获取有关访问“ NTU RGB + D”和“ NTU RGB + D 120”数据集的更多信息。 如果仅需要骨架数据,也可以通过以下方式获取它: 数据集的结构 “ NTU RGB + D”和“ NTU RGB + D 120”数据集分别包含56,880和114,480个动作样本。两个数据集都为每种样本包括4种不同的数据形式: RGB视频 深度图序列 3D骨骼数据 红外(IR)视频 视频样本已同
2021-08-31 17:01:24 19KB MATLAB
1
UT-Interaction 是一个人类交互动作视频数据,包括20个视频序列,6类人类交互动作:握手、指点、拥抱、击打、推、踢拳,视频格式为 720x480,30fps,视频中人像的大小为 200像素。
2021-08-31 11:25:53 582.09MB 动作识别 视频内容理解 机器视觉
1
Matlab多层lstm代码使用具有CNN功能的深度双向LSTM在视频序列中进行动作识别 我们已经使用caffe模式使用matlab脚本“ oneFileFeatures ...”从视频中提取了深层功能。 每个CSV文件代表一个视频的功能。 使用“ TrianTestSpit.m”将其拆分。 火车数据中的每个CSV都会合并在一起,以使用“ EachClassCSV”为每个班级创建一个CSV文件。 使用“ EachClassCSV”文件在训练数据上进行训练和验证拆分,它也为我们提供了标签。 使用“ oneHotLabeling”将其转换为热点。 最后,我们使用“ LSTM.py培训代码”,该代码包含简单的LSTM,多层LSTM和多层双向LSTM。 请引用以下论文 Ullah, A., Ahmad, J., Muhammad, K., Sajjad, M., & Baik, S. W. (2018). Action Recognition in Video Sequences using Deep Bi- Directional LSTM With CNN Features. IEEE A
2021-08-28 21:14:50 10KB 系统开源
1