OCR 框
Tesseract 培训“盒装”。 只需上传一些字体并运行它!
用法
将字体(目前仅支持 TTF)放入/opt/ocrbox/fonts
从/opt/ocrbox目录运行bin/train
新的语言文件将安装到/opt/tessdata并留在/opt/ocrbox
使用bin/clean重置一切(建议在更改训练集时使用)
训练步骤
bin/train执行以下操作:
读取字体列表
在每个上运行text2image以生成 tif/box 文件
在每个 tif/box 对上训练 Tesseract
为所有框生成 unicharset 文件
运行实际训练
语言
bin/train脚本默认为eng作为语言 - 您可以通过编辑文件顶部的变量来更改它。
字体名称
大多数字体似乎采用FontFamilyName-VariantBits格式,但有些不是! 我们实际上使用了一个合适的 T
2023-04-05 18:12:55
474KB
Shell
1