自从2010年以来,深度学习技术对语音,语言,视觉等子领域的推动,在语言和视觉跨模态交叉学科领域我们也取得了很多激动人心的进展,包括跨语言与图像的理解、推理和生成。多模态智能旨在融合多种模态的信息进行处理实现智能应用,在5G时代将会是重要的热点技术之一。最近IEEE Fellow何晓东和邓力等作者撰写关于多模态智能的综述论文《Multimodal Intelligence: Representation Learning, Information Fusion, and Applications》,详述了多模态智能研究进展,涵盖259篇参考文献,本文从学习多模态表示、多模态信号在不同层次上的融合以及多模态应用三个新角度对多模态深度学习的最新研究成果进行了综合分析。
1