上传者: cooc89
|
上传时间: 2022-02-07 14:03:11
|
文件大小: 162KB
|
文件类型: ZIP
-我们提出了一种基于多尺度和多模态深度学习的手势检测和定位方法。每一种视觉模式在特定的空间尺度上捕捉空间信息(比如上半身或手的运动),整个系统在三个时间尺度上运行。我们技术的关键是一种培训策略,它利用以下几点:1)谨慎地初始化个体模式;ii)渐进融合,包括随机丢弃独立通道(称为ModDrop),以学习交叉模态相关性,同时保持每个模态特定表示的唯一性。我们在“学习2014看人挑战赛”(ChaLearn 2014 Looking at People Challenge)的手势识别跟踪项目上展示了实验,在这个项目中,我们在17个团队中获得了第一名。在多个空间和时间尺度上融合多种模式可以显著提高识别率,使模型能够补偿单个分类器的误差以及单独通道中的噪声。此外,提出的ModDrop训练技术确保了分类器对一个或多个通道中的缺失信号的鲁棒性,从而从任意数量的可用模式中产生有意义的预测。此外,我们通过在相同的音频增强数据集上的实验,证明了所提出的融合方案对任意性质的模式的适用性。
手势识别,卷积神经网络,多模态学习,深度学习