基于变压器的场景文本识别(Transformer-STR)
我的基于场景文本识别(STR)新方法的PyTorch实现。
我改编了由设计的四阶段STR框架,并替换了Pred. 变压器的舞台。
配备了Transformer,此方法在CUTE80上优于上述深层文本识别基准的最佳模型7.6% 。
从下载预训练的砝码
该预训练权重在Synthetic数据集上进行了约700K次迭代训练。
Git克隆此仓库并下载权重文件,将其移至checkpoints目录。
从 下载lmdb数据集以进行训练和评估(由)
data_lmdb_release.zip包含以下内容。 训练数据集: [1]和 [2] 验证数据集:训练集 [3], [4], [5]和 [6]的并集。 评估数据集:基准评估数据集,由 [5], [6], IC03 [7], IC13 [3], IC15 [4], SVTP [8]和
1