上传者: 39804265
|
上传时间: 2021-04-22 21:53:48
|
文件大小: 1KB
|
文件类型: PY
对于没有损坏的word可以用网上常见的教程通过win32com库转换为txt,我的电脑实测约为1.34秒/个文档。对于文档损坏的docx文档,无法借助代码打开office的(没损坏的也可以),使用这个代码,读取xml的文本数据,进行文档转换,实测约为300个文档/秒(也许更快,但是我没有这么多word文档)。【使用方法:将需要转换的文档放入passage文件夹(如有需要变更可以改程序代码),将程序放在passage文件夹外,自动转换所有文件夹内的docx文件,命名为同名+"_xml2txt"的txt文档,文件夹内允许有其他格式文件存在,实测每秒300个】