WikiExtractor.py 中文维基语料训练获取工具之一
1
自然语言处理系列:中文维基语料词向量训练PPT
2021-03-22 15:13:19 162KB 自然语言处理
1
数据来源于中文维基百科,利用gensim进行数据抽取,再经过繁体字转换成简体字,得到纯净的文本语料,可用于词向量训练。
2020-01-14 03:01:42 146.03MB 维基语料 词向量语料
1
原文件为zhwiki-latest-pages-articles.xml.bz2,大小为1.7G,最新时间为19年7月下载,转为txt文本,繁转简,分词,gensim训练后的model文件
2019-12-21 20:02:26 15.28MB Word2Vec 训练模型文件 zhwiki-latest-pa
1