现有ocr识别小工具,分为两类,一类是依靠网络公司提供的api接口来进行识别,如百度文字识别等,优点是识别准确率高,缺点是没网没授权不能用。另一类就是本地化这种了,现在网上公开的ocr识别工具tesseract-ocr提供中文识别包。再加上使用qq邮箱的截图工具,组建成离线版的OCR识别工具。操作简单,由于使用的是最基本的训练库,准确率比较低,目前能够准确识别pdf中标准文字,带图标的文字可能会识别错误。优化的建议自己训练中文识别库替换tesseract-ocr文件夹内容即可。
2023-11-28 14:31:07 138.54MB python ocr tesseract-ocr 自由截图
1