pdf 提取器
Pdf-extractor 是的包装器,用于从 node.js 上的 pdf 生成图像、svgs、html 文件、文本文件和 json 文件。
图像:DOM画布用于呈现和导出pdf的图形层。 Canvas 默认导出 *.png,但可以扩展为导出到其他文件类型,例如 *.jpg。
SVG:使用 pdf.js 的将 Pdf 对象转换为 svg。
HTML:PDF 文本转换为 HTML。 这可以用作图像上的(透明)图层以启用文本选择。
文本:PDF 文本被提取到一个文本文件中以用于不同的用途(例如索引文本)。
Node.js 上的 PDF.js
这个库的最基本形式是 pdf.js 的 node.js 包装器。 它具有默认渲染器来生成默认输出,但很容易扩展以合并自定义逻辑或生成不同的输出。 它使用 node.js DOM 和来自 pdf.js 的节点 domstub 确实
1