POI ,xdocreport框架是一个半成品,往往使用默认的解析结果无法满足业务需求,花了很长时间和心血研究了其源码,修复了以下问题
问题1:
xdocreport能解析word转html,但解析出来的是基于word的整套html,往往我们的需求是
按照段落顺序分块解析成一小块的html,并保存数据库,方便我们解决业务上的各种需求。
解决方案:
修改xdocreport源码,按照段落解析并返回每个段落的html
问题2:
不知道段落是具体哪一个标题,没有层级概念,无法识别字体,加粗,字体颜色
解决方案:
解析每一个段落的层级标题,字体的属性并返回
问题3:
不支持解析公式(office公式,wps公式)
解决方案:
修改xdocreport解析段落源码,支持解析office公式并转mathml格式返回给前端页面显示,wps公式其实就是wmf图片,但是手动插入的公式解析不了,复制的wmf图片却可以解析,xdocreport底层不支持,修改源码让其支持。
备注:当前版本解决了docx转html,doc和docx是两套API,后续更新doc转html.
有任何不懂或者疑问,欢迎评论区留言沟通。