中文word2vector词向量实现
说明:背后的原理暂时不做深究,
主要目的就是尽可能快的训练一个中文词向量模型。
环境
笔记本 i5-4210M CPU @ 2.60GHz × 4 , 8G RAM
ubuntu16.04lts 独立系统,
python 3.6.1
依赖:numpy, scipy, gensim, opencc, jieba
1.获取语料库
1.1维基百科
原始语料文件:zhwiki-latest-pages-articles.xml.bz2 1.6G
1.2 SogouCA 全网新闻数据(SogouCA)
原始语料文件:'news_tensite_xml.full.tar.gz' 746.3 M
2.语料库预处理
2.1 搜狗新闻语料处理
来自若干新闻站点2012年6月—7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据,提供URL和正文信息
格式说明:
1