自然场景图像中的文本检测和识别是计算机视觉问题,长期以来一直是计算机工程师面临的挑战。 深度学习的新进步彻底改变了计算机视觉的世界。 本文尝试建立基于深度学习(DL)的文本检测和识别模型,以解释自然场景图像中的文本。 所提出的模型包括三个阶段,即候选文本区域检测,文本区域提取和文本识别。 首先将自然场景图像馈送到候选文本区域检测机制,该机制提取包含文本字符的潜在区域。 在处理的第一阶段中引入的包含非文本的区域在第二阶段中进行过滤。 然后,第二阶段产生的文本区域集将在最后阶段被识别。 候选文本区域检测中使用了最大稳定极值区域(MSER)算法。 该模型使用了两个卷积神经网络,一个在文本区域提取阶段,另一个在文本识别阶段。 看起来自然场景中的文本检测不是一个容易的问题。 在自然场景图像中检测和识别文本字符的复杂性主要是由于文本字符和自然场景的多样性,各种干扰的存在,不同的照明条件,文本的颜色,大小和区域的不同。 ICDAR-2011,ICDAR-2013,CHARS-74K和CIFAR-100数据集用于训练和验证我们的模型。
1