**Tesseract OCR与Chi_Sim** Tesseract OCR(Optical Character Recognition)是由Google维护的一款开源OCR引擎,最初由HP开发,后被Google收购并持续改进。它能够识别图像中的文字,将其转换为可编辑和可搜索的数据。Tesseract OCR的强大之处在于其高度可定制性,用户可以根据需要训练它识别特定字体或语言,极大地提高了识别准确率。 **Tesseract OCR基础知识** 1. **安装与配置**:Tesseract OCR提供Windows、Linux和macOS的安装包,如压缩包中的`tesseract-ocr-w64-setup-v5.0.1.20220118`即为Windows 64位的安装程序。安装后,可以通过命令行或编程接口(如Python的`pytesseract`库)调用Tesseract。 2. **语言支持**:Tesseract OCR支持多种语言,包括英语、中文、法语等。`chi_sim.traineddata`是简体中文的训练数据文件,用于提高对简体中文字符的识别精度。 3. **使用命令行**:在命令行中,可以使用`tesseract`命令进行文字识别,例如`tesseract input.png output.txt`会将`input.png`图像中的文字识别并保存到`output.txt`。 4. **训练数据**:`chi_sim.traineddata`是预训练模型,包含了简体中文的字符识别信息。Tesseract通过这些训练数据学习识别特定语言的字符形状和模式。 5. **自定义训练**:如果需要识别其他特殊字体或非标准字符,可以创建自定义的训练数据集,通过Tesseract的training工具进行训练。 **Chi_Sim(简体中文)支持** 1. **简体中文识别**:`chi_sim`是Tesseract针对简体中文的支持,提供了高准确度的汉字识别能力。`chi_sim.traineddata`是这个语言包的文件名,将其放置在Tesseract的data目录下,就能启用简体中文识别。 2. **字符集**:Chi_Sim涵盖了大部分常见的简体汉字,但可能无法识别所有罕见或古籍中的汉字。对于特殊需求,可能需要自定义训练。 3. **识别效果**:由于汉字的复杂性,即使使用`chi_sim.traineddata`,识别率也可能会受到图像质量、排版、字体等因素的影响。清晰、标准的字体通常能获得更好的识别结果。 **进阶应用** 1. **图像预处理**:为了提高识别效果,可以对输入图像进行预处理,如调整对比度、二值化、去噪等。 2. **页面分割**:Tesseract具有自动页面分割功能,但有时可能需要手动调整,尤其是对布局复杂的文档。 3. **自适应阈值**:对于不同背景和光照条件的图像,自适应阈值可以帮助更好地分离文字区域。 4. **API集成**:除了命令行工具,Tesseract还提供了C++和Python等编程接口,方便在应用程序中集成OCR功能。 5. **错误校正**:识别后的文本可以通过NLP(自然语言处理)技术进行错误检测和校正,进一步提升识别的准确性。 Tesseract OCR结合`chi_sim.traineddata`,为中文字符的自动识别提供了强大的工具。通过熟练掌握其使用和配置,可以有效地将扫描文档或图片中的中文文字转化为可编辑的文本。同时,不断优化训练数据和图像预处理,能进一步提升识别的精确度。
2025-04-10 10:47:29 77.81MB ocr tesseract-oc chi_sim tesseract
1
1. 样本图片准备 2. 打开 jTessBoxEditor ,选择 Tools -> Merge TIFF,打开对话框,选择训练样本所在文件夹,并选中所有要参与训练的样本图片 3 弹出保存对话框,还是选择在当前路径下保存,文件命名为ty.cp.exp6.tif 4. tesseract ty.cp.exp6.tif ty.cp.exp6 -l ty batch.nochop makebox 5. 打开 jTessBoxEditor ,点击 Box Editor -> Open ,打开步骤2中生成的ty.cp.exp6.tif ,会自动关联到 “ty.cp.exp6.box” 文件: 6. 使用echo命令创建字体特征文件 echo cp 0 0 0 0 0>font_properties. 输入内容 “cp 0 0 0 0 0” 7. 使用 tesseract 生成 ty.cp.exp6.tr 训练文件 在终端中执行以下命名: tesseract ty.cp.exp6.tif ty.cp.exp6 nobatch box.train 8. 生成字符集文件 在终端中执行以下命令: unicharset_extractor ty.cp.exp6.box 9. mftraining -F font_properties -U unicharset -O ty.unicharset ty.cp.exp6.tr 与 cntraining ty.cp.exp6.tr 生成之后手工修改 Clustering 过程生成的 4 个文件(inttemp、pffmtable、normproto、shapetable)的名称为 [lang].xxx。这里改为 ty.inttemp、ty.pffmtable、ty.normproto、ty.shapetable。 10. 合并数据文件 在终端中执行以下命令: combine_tessdata ty. tesseract b01.jpg result -l ty --psm 7
1
技嘉-Z690 GAMING X DDR4 V2-OC-EFI
2024-04-03 14:22:06 4.24MB 黑苹果
1
HTTPSConnectDemo 使用OC和Swift两种语言,通过NSURLSession进行HTTPS验证
2024-03-26 16:23:12 54KB Objective-C
1
介绍TTL,CMOS,OC门,OD门等常用电子电路原理知识
2024-03-25 13:23:26 51KB COMS
1
Lenovo x270 14.1macOS Sonoma引导,oc版本为最新0.9.9版本
2024-03-15 16:21:47 48.2MB macos
1
黑苹果0C 0.91引导。显卡硬解简单主题支持 处理器 英特尔 Core i5-9400F @ 2.90GHz 六核 主板 华硕 TUF B360M-PLUS GAMING S(B360 芯片组) 显卡 AMD Radeon RX 570 Series ( 8 GB / 蓝宝石 ) 内存 16 GB ( 金士顿 DDR4 2666MHz 8GB x 2 ) 主硬盘 英特尔 SSDPEKKW256G8 (256 GB / 固态硬盘) 显示器 创维 SKY0027 G1AF27C-T270F ( 27 英寸 ) 声卡 瑞昱 ALC887 @ 英特尔 High Definition Audio 控制器 网卡 英特尔 Wireless-AC 9560
2024-02-17 04:42:19 27.31MB 黑苹果 oc引导 黑苹果引导
1
黑果OC引导配置工具OpenCore Configurator.app_v2.6.0.0是一款四叶草图形界面配置工具,可以图形化的帮你编辑配置文件。
2023-11-01 10:07:19 9.22MB macos 配置工具 OpenCore
1
Thinkbook 15-ill 2020款黑苹果EFI OC版,使用后,使用hackintools,重新生成3码即可,几乎完美。电源管理、睡眠、显卡驱动屏蔽、声音、麦克风、网卡、蓝牙,支持airdrop等。
2023-06-16 08:41:51 27.89MB 黑苹果 thinkbook 2020 1065G7
1
基本正常声音网卡CPU都正常
2023-04-26 20:18:23 12.68MB macos
1