上传者: 42169971
|
上传时间: 2021-11-05 21:17:12
|
文件大小: 2.24MB
|
文件类型: -
PdfTextract
使用xpdf c ++库的非常快速高效的python PDF文本和图像提取器。
特征
几倍胖,然后任何基于python的pdf文本提取器
非常简单易用
在保留原始文档布局的同时提取文本
尝试自动提取表(如果存在)(仍处于beta中)
无需本地服务器设置
无需依赖
安装方式
通过PyPi安装:
pip install pdftextract
或通过github:
首先克隆仓库:
git clone https : // github . com / Bnilss / pdftextract . git
然后跑
python setup . py install
用法
导入包
from pdftextract import XPdf
file_path = "examples/pubmed_example.pdf"
pdf = XPdf ( file_path )