由于近期需要将一份Word文档转到Markdown格式,但是文件内容较大,自动转换工具转换不能完全满足我的要求,存在问题如下:导出的图片名乱码,一部分换行存在问题。
针对图片名乱码的问题,由于word中的图片拥有一定的顺序,所以根据该顺序对导出的md文件中图片语法识别进行更换合适的文件名。
其次,由于我需要将该文件根据章节进行拆分,这部分的内容程序也已经完成,
程序中实现了UTF-8格式转GBK格式,使用stream对TXT进行读取并识别,获取到需要的信息后对信息进行更改,最后依据一级标题对文件进行拆分。
1