这些文件与光学字符识别(OCR)技术密切相关,特别是与Tesseract OCR引擎的训练数据相关。Tesseract是一个开源的OCR软件,由HP开发并在2005年贡献给了Google,现在由谷歌维护。它能识别图像中的文本并将其转换为可编辑、可搜索的格式。 1. **eng.traineddata**: 这个文件是Tesseract针对英文语言的训练数据。"traineddata"文件包含了用于识别英文文本的模型。训练数据包括字符集、字形、语言特定的上下文信息等,使得Tesseract能够更准确地识别和理解英文文本。在处理英文文档或图片时,Tesseract会使用这个文件来解析和转化文本。 2. **chi_tra.traineddata**: 这是Tesseract针对繁体中文的训练数据。"chi_tra"代表“Chinese Traditional”,即繁体中文。同样,这个文件包含了繁体中文的字符模型、字形信息以及语言模型,以帮助Tesseract在处理繁体中文文本时提高识别精度。对于含有大量繁体中文的图像或文档,使用这个训练数据至关重要。 3. **chi_sim.traineddata**: 这个文件是针对简体中文的训练数据。"chi_sim"代表“Chinese Simplified”,即简体中文。这个文件包含了识别和理解简体中文字符所需的所有信息。当用户需要从包含简体中文的图像或扫描文档中提取文本时,Tesseract会依赖这个训练数据。 4. **tessdata**: 这是Tesseract的训练数据存储目录。所有的训练数据文件(如eng.traineddata、chi_tra.traineddata和chi_sim.traineddata)都会保存在这个目录下,Tesseract在运行时会查找这个目录来获取不同语言的识别模型。 使用这些训练数据时,Tesseract首先会分析输入图像,然后利用训练数据中的模型对每个字符进行分类和识别。通过机器学习算法,它能够不断优化识别过程,尤其在处理特定语言时,有了对应的训练数据,其识别效果将显著提升。 在实际应用中,Tesseract可以广泛用于各种场景,例如从PDF文档中提取文本、自动识别网页截图中的文字、或者处理纸质文件的数字化。用户可以根据需要识别的语言,加载相应的训练数据,从而实现高效的文本识别。对于开发者来说,Tesseract的API还可以集成到自己的应用程序中,以提供文本识别功能。
2025-09-09 11:17:47 57.37MB eng.traineddata chi_sim.trainedd
1
官方eng.traineddata训练集,对英文和数字的识别率较高
2025-03-07 15:36:13 22.38MB tess4j
1
1. 样本图片准备 2. 打开 jTessBoxEditor ,选择 Tools -> Merge TIFF,打开对话框,选择训练样本所在文件夹,并选中所有要参与训练的样本图片 3 弹出保存对话框,还是选择在当前路径下保存,文件命名为ty.cp.exp6.tif 4. tesseract ty.cp.exp6.tif ty.cp.exp6 -l ty batch.nochop makebox 5. 打开 jTessBoxEditor ,点击 Box Editor -> Open ,打开步骤2中生成的ty.cp.exp6.tif ,会自动关联到 “ty.cp.exp6.box” 文件: 6. 使用echo命令创建字体特征文件 echo cp 0 0 0 0 0>font_properties. 输入内容 “cp 0 0 0 0 0” 7. 使用 tesseract 生成 ty.cp.exp6.tr 训练文件 在终端中执行以下命名: tesseract ty.cp.exp6.tif ty.cp.exp6 nobatch box.train 8. 生成字符集文件 在终端中执行以下命令: unicharset_extractor ty.cp.exp6.box 9. mftraining -F font_properties -U unicharset -O ty.unicharset ty.cp.exp6.tr 与 cntraining ty.cp.exp6.tr 生成之后手工修改 Clustering 过程生成的 4 个文件(inttemp、pffmtable、normproto、shapetable)的名称为 [lang].xxx。这里改为 ty.inttemp、ty.pffmtable、ty.normproto、ty.shapetable。 10. 合并数据文件 在终端中执行以下命令: combine_tessdata ty. tesseract b01.jpg result -l ty --psm 7
1
Tesseract-OCR使用的chi_sim中文语言包,解压后大概39M大小
2023-02-20 15:50:44 34.62MB chi_sim
1
使用 tess4j 时需要的训练库 ,包含chi_sim.traineddata eng.traineddata中英文,中文识时别对图片的清晰度要求比较高,需要自己调整
2022-11-08 16:39:11 34.73MB tess4j
1
tesseract-ocr语言包,这个是英文的语言包
2022-10-10 20:44:31 2.97MB tessdata
1
英文语言识别包eng.traineddata
2022-05-14 14:26:27 1.84MB traineddata
1
chi_sim.traineddata+eng.traineddata
2022-02-08 13:24:15 19.21MB eng chi_sim traineddata
1
tesseract 等做识别功能的中英文、数字库,其版本为3.4.3,识别效果还可以,当然你可以自己再训练
2022-01-22 16:11:40 39.92MB tesseract traineddata
1
tesseract-ocr中英文数据包chi_sim.traineddata.gz eng.traineddata.gz
2021-09-22 02:06:21 25.82MB chi_sim traineddata eng tesseract
1