前言
最近有一个case。需要去解析word文档。有两个需求,一个是将word文档转成PDF,一个是将word文档中的内容按照一定的规范读取到数据库中,去npm仓库找了大概有十几个包,发现主要是通过以下的方式来转换代码。
通过调用系统底层程序(比如说office)的API来转换;
通过模板,替换数据来实现生成PDF;
通过有些免费将word转成PDF的网站来实现将word转成PDF,比如docx-to-pdf;
后来退而求其次,想通过先将docx转成文字,发现了个textract的包。
当然也有缺点,不支持docx中的标题号,不支持图片等文件。
不怕死的我决定自己干这件事情。
介
2021-06-01 11:30:26
84KB
c
do
doc
1