手势识别的目的是识别人体有意义的动作,在智能人机交互中至关重要。本文提出了一种基于三维卷积和卷积长短时记忆(LSTM)网络的多模态手势识别方法。该方法首先通过三维卷积神经网络学习手势的短期时空特征,然后在提取的短期时空特征的基础上,通过卷积LSTM网络学习长期时空特征。此外,我们评估了多模态数据之间的微调,我们发现,当没有预先训练的模型存在时,它可以被视为一种可选的技能,以防止过拟合。在ChaLearn LAP大规模孤立手势数据集(IsoGD)和Sheffield Kinect手势数据集(SKIG)上对该方法进行了验证。结果表明,该方法在IsoGD验证集上的识别准确率为51.02%,在SKIG验证集上的识别准确率为98.89%。 3d卷积,卷积LSTM,手势识别,多模态
2022-02-07 14:03:36 529KB 多模态手势识
-我们提出了一种基于多尺度和多模态深度学习的手势检测和定位方法。每一种视觉模式在特定的空间尺度上捕捉空间信息(比如上半身或手的运动),整个系统在三个时间尺度上运行。我们技术的关键是一种培训策略,它利用以下几点:1)谨慎地初始化个体模式;ii)渐进融合,包括随机丢弃独立通道(称为ModDrop),以学习交叉模态相关性,同时保持每个模态特定表示的唯一性。我们在“学习2014看人挑战赛”(ChaLearn 2014 Looking at People Challenge)的手势识别跟踪项目上展示了实验,在这个项目中,我们在17个团队中获得了第一名。在多个空间和时间尺度上融合多种模式可以显著提高识别率,使模型能够补偿单个分类器的误差以及单独通道中的噪声。此外,提出的ModDrop训练技术确保了分类器对一个或多个通道中的缺失信号的鲁棒性,从而从任意数量的可用模式中产生有意义的预测。此外,我们通过在相同的音频增强数据集上的实验,证明了所提出的融合方案对任意性质的模式的适用性。 手势识别,卷积神经网络,多模态学习,深度学习
2022-02-07 14:03:11 162KB 手势识别
通过多生物特征识别融合可以显著地改善系统的识别性能,在多生物特征识别中,匹配分数级融合最常用.现有的匹配分数级融合策略包括基于归一化的融合、基于密度的融合和基于分类器的融合.本文分析了这三种融合策略的优缺点,结合分数归一化和基于密度方法的优点,提出了一种新的基于信任度的融合策略.其中,信任度是以错误拒绝率和错误接受率为基础,既避免了直接求取某个匹配分数的后验概率,又能够刻画匹配分数的分布.将本文方法与几种有代表性的方法进行实验比较,结果表明,这种新融合模式可以有效地改进多生物特征识别系统的性能.
1
基于目标相关单元的家用服务机器人多模态语言理解模型_Target-dependent UNITER A Transformer-Based Multimodal Language Comprehension Model for Domestic Service Robots.pdf
2022-01-28 14:02:10 7.73MB transformer 深度学习 人工智能 cs
主要实现Pet与CT、MRI图像的配准、pet本身伪彩色映射、不同模态的图像融合及可视化等。
2022-01-12 19:03:57 92KB 医学图像融合 多模态 可视化
2021腾讯广告算法大赛-双赛道20队伍PPT
2022-01-12 09:12:59 27.35MB 腾讯 广告算法大赛 多模态
1
多模态图像配准的特征邻域互信息.pdf
2022-01-06 13:02:20 3.39MB 多模态 配准
1
matlab代码黄色MR脑组织分割 MR脑组织分割是生物医学图像处理中的重要问题。 目标是将图像分为三个组织,即白质(WM),灰质(GM)和脑脊髓液(CSF)。 我们使用具有多模态和邻接约束的LSTM方法进行脑图像分割。 我们从大脑图像生成特征序列,并将其输入经过训练的LSTM / BiLSTM模型中以获得语义标签。 该方法实现了有希望的分割结果以及对噪声的鲁棒性。 纸 谢凯,应雯。 LSTM-MA:一种具有多模态和邻接约束的LSTM方法,用于脑图像分割。 (提交给ICIP 2019) 代码 用于实现我们的方法的Matlab代码:LSTM-MA和BiLSTM-MA。 数据集 :包含正常脑的MRI模拟量,具有三种模式:T1,T2和PD。 :包含T1,T1反向恢复和FLAIR序列。 管道 我们建议的细分渠道的说明。 给定多模态切片的输入,遵循两个阶段以获得最终的分割结果。 首先是序列构建阶段,以两种方式生成特征序列,即逐像素约束和超逐像素约束。 其次是分类阶段,将特征序列分别输入LSTM或BiLSTM层,然后再输入完全连接的层和s​​oftmax层。 正常的大脑 在BrainWeb上的三个
2022-01-05 18:09:10 3.37MB 系统开源
1
针对健康数据种类日益增多,而统计学算法不能实现所有数据种类的特征提取与健康状态评估的问题,文中提出了基于卷积与BP神经网络的健康数据分析算法来评估用户的健康状态。对健康数据类型进行分析,总结为数字、文本、图像3种模态的数据类型,并分别针对这3种数据类型进行基于卷积神经网络的数据特征表征模型的构建。经过特征融合,利用多元高斯分布定义健康状态的划分,并利用BP神经网络构建健康数据分析算法。通过在样本数据上的测试结果表明,与朴素贝利斯模型对比,文中所述健康数据分析算法具有较高的准确率,使用多模态数据较单一数据类型的健康评估结果更优,其准确率约为84.2 %。
1
蔡氏电路matlab仿真代码MMGCN:用于微视频个性化推荐的多模式图卷积网络 这是本文的Pytorch实现: 魏银威,王翔,聂立强,何湘南,洪理昌和蔡达生(2019)。 MMGCN:多模式图卷积网络,用于微视频的个性化推荐。 在法国10月,NICE的ACM MM`19。 2019年21月25日作者:魏因伟博士(hotmail.com上的weiyinwei) 介绍 多模式图卷积网络是一种基于图卷积网络的新颖多模式推荐框架,可对特定于模式的用户偏好进行显式建模,以增强微视频推荐。 我们更新代码,并使用完整的排名策略进行验证和测试。 引文 如果您想在研究中使用我们的代码和数据集,请引用: @inproceedings{MMGCN, title = {MMGCN: Multi-modal graph convolution network for personalized recommendation of micro-video}, author = {Wei, Yinwei and Wang, Xiang and Nie, Liqiang and He, Xiangnan and Hon
2021-12-19 19:05:29 10KB 系统开源
1