将wiki上article数据进行下载,通过维基百科抽取工具将xml格式解析成txt格式,然后使用opencc将繁体转化为简体。在抽取时将文档分了段,因此只上传了部分文档
2020-01-03 11:31:04 67.35MB wiki 维基百科 简体数据 gensim
1