1. 样本图片准备 2. 打开 jTessBoxEditor ,选择 Tools -> Merge TIFF,打开对话框,选择训练样本所在文件夹,并选中所有要参与训练的样本图片 3 弹出保存对话框,还是选择在当前路径下保存,文件命名为ty.cp.exp6.tif 4. tesseract ty.cp.exp6.tif ty.cp.exp6 -l ty batch.nochop makebox 5. 打开 jTessBoxEditor ,点击 Box Editor -> Open ,打开步骤2中生成的ty.cp.exp6.tif ,会自动关联到 “ty.cp.exp6.box” 文件: 6. 使用echo命令创建字体特征文件 echo cp 0 0 0 0 0>font_properties. 输入内容 “cp 0 0 0 0 0” 7. 使用 tesseract 生成 ty.cp.exp6.tr 训练文件 在终端中执行以下命名: tesseract ty.cp.exp6.tif ty.cp.exp6 nobatch box.train 8. 生成字符集文件 在终端中执行以下命令: unicharset_extractor ty.cp.exp6.box 9. mftraining -F font_properties -U unicharset -O ty.unicharset ty.cp.exp6.tr 与 cntraining ty.cp.exp6.tr 生成之后手工修改 Clustering 过程生成的 4 个文件(inttemp、pffmtable、normproto、shapetable)的名称为 [lang].xxx。这里改为 ty.inttemp、ty.pffmtable、ty.normproto、ty.shapetable。 10. 合并数据文件 在终端中执行以下命令: combine_tessdata ty. tesseract b01.jpg result -l ty --psm 7
1
最新Tesseract 训练库,非常好用。 下载完成后,解压后,把需要的字库(如:chi_sim.traineddata)放到Tesseract-OCR目录中的tessdata目录下就可以使用了。具体使用,如果需要使用简体中文库,在第二个参数中设置lang="chi_sim",python为例:text = pytesseract.image_to_string(Image.open(filename), lang="chi_sim")
2022-12-13 23:37:07 114.36MB tessdata 训练库 中文字库
1
tesseract-ocr语言包,这个是英文的语言包
2022-10-10 20:44:31 2.97MB tessdata
1
https://github.com/tesseract-ocr/tessdata
2021-12-21 18:10:27 634.97MB tessdata ocr Tess4j
1
OCR 中文包
2021-12-15 18:09:38 60.12MB OCR 语言 中文
1
tessdata简体汉字自己训练的包,针对楷体汉字库,使用tessdata ocr 4.0以上训练是用得Tesseract-OCR 5.0 windows 10 64位系统
2021-12-04 13:07:06 12.47MB tessdata 楷体 3600汉字 自己训练
1
语言训练库,放在这里备份自己用。设置了低积分,大家要用的可用方便下载。50积分实在是太贵了。自用是用作tess4j进行验证码识别使用的。
2021-12-03 14:30:50 642.49MB tessdata tess4j
1
tesseract4.0版本全语言包合集。tessdata全语言包合集。官方github因为限制原因,访问慢,下载慢,故我把所有的语言包都整合到一起了,压缩包形式提供给大家,包括简体中文、英文等等官方提供的全语言。
2021-11-26 22:52:05 451.01MB tesseract语言包
1
tessdata.zip
2021-11-18 12:03:43 47.39MB Tesseract 文字识别
1
可以直接使用的tesseract 英语与中文的训练集
2021-10-14 11:08:21 26.05MB ocr tesseract
1