在财务领域,纸质报表向电子报表的转换需要大量的人工和时间成本。本文探究了纸质财务报表的自动识别过程,通过预处理、表头和表格区域的分割提取、单元格分割、字符提取与识别、表格还原等过程实现报表图片的转换,在实现报表信息便捷存储和查询的同时,也克服了人工录入的低效率、高成本等缺点。实验结果表明,该算法能有效实现图像的倾斜校正,且无需设置提示框限定拍摄范围;能有效分割表格格式的字符,其准确率为99.3%,无需手动框选待识别字符;字符识别准确率为93.7%,其中数字识别的准确率为97.8%,总体字符识别准确率相较Tesseract提升了8.1%。
1