本文的研究内容主要包括数据库构建和算法研究两个方面,主要内容如下:
(1)中文唇语识别数据集 LRW-1000 的构建:考虑到目前关于中文唇语识别的
研究尚无一个基准的数据库,为了给未来中文唇语识别的研究提供一个数据基准,
本课题根据自采的数据,与中科院计算所 VIPL 组合作构建了一个大型的开放场景下
中文唇语识别数据集,并提出了一个完整的构建流程,详细介绍了构建流程中的设
计到的算法原理。
(2)唇语识别算法:提出了一个新的唇语识别算法,来学习从唇语图像序列到
目标文本序列的映射。为了增强网络对短时依赖的建模能力,结合 DenseNet 和时空卷积提出一个新的网络结构,命名为 D3D。然后使用循环神经网络对得到特征的时
序关联进行学习。同时,针对特定的网络结构,设计了一个三段式的训练方法来解
决模型收敛不稳定的问题,该训练方式对于模型性能有显著提升。
2021-04-23 16:41:42
2.28MB
唇语识别
1