该资源主要参考我的博客:word2vec词向量训练及中文文本相似度计算 http://blog.csdn.net/eastmount/article/details/50637476 其中包括C语言的Word2vec源代码(从官网下载),自定义爬取的三大百科(百度百科、互动百科、维基百科)中文语料,涉及到国家、景区、动物和人物。 同时包括60M的腾讯新闻语料,是一个txt,每行相当于一个新闻。 国家包括了Python的Jieba分词代码,详见博客。 免费资源希望对你有所帮助~
2019-12-21 19:41:38 142.09MB word2vec 源码 中文预料 词向量
1
用来得到TXT文本中词语的相关性的深度学习模型,需要分词,text8为样例,运行脚本可以直接开始训练。最后得到.bin模型
2019-12-21 18:59:02 31.81MB word2vec 深度学习
1
公司名称相似度计算,公司名称相似度计算公司名称相似度计算公司名称相似度计算
2019-12-21 18:49:27 240KB 相似度计算 空间向量余弦
1