搜索【eng.traineddata】的结果

eng.traineddata chi_tra.traineddata chi_sim.traineddata

这些文件与光学字符识别（OCR）技术密切相关，特别是与Tesseract OCR引擎的训练数据相关。Tesseract是一个开源的OCR软件，由HP开发并在2005年贡献给了Google，现在由谷歌维护。它能识别图像中的文本并将其转换为可编辑、可搜索的格式。 1. **eng.traineddata**: 这个文件是Tesseract针对英文语言的训练数据。"traineddata"文件包含了用于识别英文文本的模型。训练数据包括字符集、字形、语言特定的上下文信息等，使得Tesseract能够更准确地识别和理解英文文本。在处理英文文档或图片时，Tesseract会使用这个文件来解析和转化文本。 2. **chi_tra.traineddata**: 这是Tesseract针对繁体中文的训练数据。"chi_tra"代表“Chinese Traditional”，即繁体中文。同样，这个文件包含了繁体中文的字符模型、字形信息以及语言模型，以帮助Tesseract在处理繁体中文文本时提高识别精度。对于含有大量繁体中文的图像或文档，使用这个训练数据至关重要。 3. **chi_sim.traineddata**: 这个文件是针对简体中文的训练数据。"chi_sim"代表“Chinese Simplified”，即简体中文。这个文件包含了识别和理解简体中文字符所需的所有信息。当用户需要从包含简体中文的图像或扫描文档中提取文本时，Tesseract会依赖这个训练数据。 4. **tessdata**: 这是Tesseract的训练数据存储目录。所有的训练数据文件（如eng.traineddata、chi_tra.traineddata和chi_sim.traineddata）都会保存在这个目录下，Tesseract在运行时会查找这个目录来获取不同语言的识别模型。使用这些训练数据时，Tesseract首先会分析输入图像，然后利用训练数据中的模型对每个字符进行分类和识别。通过机器学习算法，它能够不断优化识别过程，尤其在处理特定语言时，有了对应的训练数据，其识别效果将显著提升。在实际应用中，Tesseract可以广泛用于各种场景，例如从PDF文档中提取文本、自动识别网页截图中的文字、或者处理纸质文件的数字化。用户可以根据需要识别的语言，加载相应的训练数据，从而实现高效的文本识别。对于开发者来说，Tesseract的API还可以集成到自己的应用程序中，以提供文本识别功能。

2025-09-09 11:17:47 57.37MB eng.traineddata chi_sim.trainedd

1

eng.traineddata

官方eng.traineddata训练集，对英文和数字的识别率较高

2025-03-07 15:36:13 22.38MB tess4j

1

文字识别Tesseract-OCR tessdata eng.traineddata OCR识别训练数据文件

1. 样本图片准备 2. 打开 jTessBoxEditor ，选择 Tools -> Merge TIFF，打开对话框，选择训练样本所在文件夹，并选中所有要参与训练的样本图片 3 弹出保存对话框，还是选择在当前路径下保存，文件命名为ty.cp.exp6.tif 4. tesseract ty.cp.exp6.tif ty.cp.exp6 -l ty batch.nochop makebox 5. 打开 jTessBoxEditor ，点击 Box Editor -> Open ，打开步骤2中生成的ty.cp.exp6.tif ，会自动关联到 “ty.cp.exp6.box” 文件： 6. 使用echo命令创建字体特征文件 echo cp 0 0 0 0 0>font_properties. 输入内容 “cp 0 0 0 0 0” 7. 使用 tesseract 生成 ty.cp.exp6.tr 训练文件在终端中执行以下命名： tesseract ty.cp.exp6.tif ty.cp.exp6 nobatch box.train 8. 生成字符集文件在终端中执行以下命令： unicharset_extractor ty.cp.exp6.box 9. mftraining -F font_properties -U unicharset -O ty.unicharset ty.cp.exp6.tr 与 cntraining ty.cp.exp6.tr 生成之后手工修改 Clustering 过程生成的 4 个文件（inttemp、pffmtable、normproto、shapetable）的名称为 [lang].xxx。这里改为 ty.inttemp、ty.pffmtable、ty.normproto、ty.shapetable。 10. 合并数据文件在终端中执行以下命令： combine_tessdata ty. tesseract b01.jpg result -l ty --psm 7

2024-05-17 17:27:03 31.4MB Tesseract-OC 训练样本 文字识别 识别训练数据

1

chi_sim.traineddata和eng.traineddata字库

Tesseract-OCR使用的chi_sim中文语言包,解压后大概39M大小

2023-02-20 15:50:44 34.62MB chi_sim

1

tess4j chi_sim.traineddata eng.traineddata

使用 tess4j 时需要的训练库，包含chi_sim.traineddata eng.traineddata中英文，中文识时别对图片的清晰度要求比较高，需要自己调整

2022-11-08 16:39:11 34.73MB tess4j

1

eng.traineddata

tesseract-ocr语言包，这个是英文的语言包

2022-10-10 20:44:31 2.97MB tessdata

1

英文语言识别包eng.traineddata

2022-05-14 14:26:27 1.84MB traineddata

1

chi_sim.traineddata+eng.traineddata

2022-02-08 13:24:15 19.21MB eng chi_sim traineddata

1

包含osd/chi_sim/eng.traineddata 训练库合集

tesseract 等做识别功能的中英文、数字库，其版本为3.4.3，识别效果还可以，当然你可以自己再训练

2022-01-22 16:11:40 39.92MB tesseract traineddata

1

tesseract-ocr中英文数据包chi_sim.traineddata.gz eng.traineddata.gz

2021-09-22 02:06:21 25.82MB chi_sim traineddata eng tesseract

1

个人信息

热门下载

最新下载

其他资源