PDF文字提取工具 xpdf_pdftotext
已经配置好配置文件
pdftotext ? Portable Document Format (PDF) to text converter (version 4.03)
http://www.xpdfreader.com/pdftotext-man.html
通过XPDF读取PDF内容并转化为txt格式的过程中,可能会出现如下提示:
Syntax Error: Unknown character collection 'Adobe-GB1'
Syntax Error: Couldn't find 'UniGB-UTF16-H' CMap file for 'Adobe-GB1' collection
Syntax Error: Unknown CMap 'UniGB-UTF16-H' for character collection 'Adobe-GB1'
Syntax Error: Failed to parse font object for 'AdobeSongStd-Light'
————————————————
这是因为我们仍缺少最后一步的配置操作:将D:\ProgramFiles\xpdf\xpdf-chinese-simplified\目录下面的add-to-xpdfrc文件复制到D:\Program Files\xpdf\bin64\目录下,将其改名为xpdfrc,打开该文件修改内容为如下:
————————————————
2021-04-01 09:09:00
12.69MB
xpdf
1