1. 样本图片准备 2. 打开 jTessBoxEditor ,选择 Tools -> Merge TIFF,打开对话框,选择训练样本所在文件夹,并选中所有要参与训练的样本图片 3 弹出保存对话框,还是选择在当前路径下保存,文件命名为ty.cp.exp6.tif 4. tesseract ty.cp.exp6.tif ty.cp.exp6 -l ty batch.nochop makebox 5. 打开 jTessBoxEditor ,点击 Box Editor -> Open ,打开步骤2中生成的ty.cp.exp6.tif ,会自动关联到 “ty.cp.exp6.box” 文件: 6. 使用echo命令创建字体特征文件 echo cp 0 0 0 0 0>font_properties. 输入内容 “cp 0 0 0 0 0” 7. 使用 tesseract 生成 ty.cp.exp6.tr 训练文件 在终端中执行以下命名: tesseract ty.cp.exp6.tif ty.cp.exp6 nobatch box.train 8. 生成字符集文件 在终端中执行以下命令: unicharset_extractor ty.cp.exp6.box 9. mftraining -F font_properties -U unicharset -O ty.unicharset ty.cp.exp6.tr 与 cntraining ty.cp.exp6.tr 生成之后手工修改 Clustering 过程生成的 4 个文件(inttemp、pffmtable、normproto、shapetable)的名称为 [lang].xxx。这里改为 ty.inttemp、ty.pffmtable、ty.normproto、ty.shapetable。 10. 合并数据文件 在终端中执行以下命令: combine_tessdata ty. tesseract b01.jpg result -l ty --psm 7
1
tess4j3.4.4 +中文语言包 chi_sim.traineddata ,一步到位了
2023-09-19 15:17:30 94.59MB tess4j 中文语言包 chi_sim
1
chi_sim.traineddata 中文语言包 OCR,用于Tesseract-OCR
2023-05-19 17:36:41 17.84MB 中文语言包
1
将文件解压后,拷贝到安装路径下的Tesseract-OCR文件夹中的tessdata文件夹下面即可。 主要功能用于识别中文字体 默认下载的Tesseract-OCR安装包中是没有简体中文的文件的。 可以用CMD命令行窗口下可用 tesseract --list-langs 来查看Tesseract-OCR支持语言 如果出现chi_sim,则为成功!
2023-04-20 20:37:58 19.08MB Tesseract-OCR chi_sim 简体中文语言包
1
Tesseract-OCR使用的chi_sim中文语言包,解压后大概39M大小
2023-02-20 15:50:44 34.62MB chi_sim
1
chi_sim.traineddata
2022-11-08 16:45:58 19.16MB chi_sim.trainedd
1
使用 tess4j 时需要的训练库 ,包含chi_sim.traineddata eng.traineddata中英文,中文识时别对图片的清晰度要求比较高,需要自己调整
2022-11-08 16:39:11 34.73MB tess4j
1
chi_sim.traineddata OCR 训练库 l支持身份证|车牌|名片| 精品分享
2022-11-04 12:42:38 18.12MB chi_sim OCR 车牌 身份证
1
tesseract-ocr语言包,这个是英文的语言包
2022-10-10 20:44:31 2.97MB tessdata
1
适用于Tesseract(3.04-3.05)版本,解压后40.1M,资源获取来自Tesseract官方GitHub,免csdn积分官方获取各版本语言包请看我的博客:https://blog.csdn.net/qq_38161040/article/details/90727456
1