数据来源于中文维基百科,利用gensim进行数据抽取,再经过繁体字转换成简体字,得到纯净的文本语料,可用于词向量训练。
2020-01-14 03:01:42 146.03MB 维基语料 词向量语料
1
想用时找不到地方下载,找到了发出来大家共享下。欢迎大家一起交流学习
2019-12-21 22:00:15 43KB 词向量模型
1
为了将情感信息融入到词向量中,本文第一部分工作提出了两个情感词向量 学习框架,即,基于谷歌提出的Skip-gram模型的框架和基于卷积神经网络模型 的框架。在每个框架中,根据情感和语义信息融合策略的不同,我们又分别提出 H个具体模型。为了验证学习得到的情感词向量是否包含语义和情感信息,本文 分别在不同语言、不同领域的多个数据集下进行了大量定性和定量的比较实验。 这部分相关工作分别发表在2015年IALP会议和2016年IJCNN会议
2019-12-21 21:28:01 4.63MB 深度学习
1
使用glove预训练词向量(1.6GB维基百科语料),维度为300,词汇量约13000,文件大小为41.2MB
2019-12-21 20:46:02 41.24MB 自然语言处理 预训练词向量
1
Glove词向量npy文件:包含idsMatrix.npy,wordsList.npy,wordVectors.npy
2019-12-21 20:41:51 93.55MB glove
1
基于tensorflow的IMDB文本情感分析完整代码(包含数据和词向量可直接运行),网络结构采用双层LSTM。
2019-12-21 20:41:51 164.63MB 基于tens
1
这是最新的中文维基百科语料库(截至2019年2月20日),可以用来训练word2vec词向量,做文本分类,官网特别难下载,因此分享出来
1
该资源主要参考我的博客:word2vec词向量训练及中文文本相似度计算 http://blog.csdn.net/eastmount/article/details/50637476 其中包括C语言的Word2vec源代码(从官网下载),自定义爬取的三大百科(百度百科、互动百科、维基百科)中文语料,涉及到国家、景区、动物和人物。 同时包括60M的腾讯新闻语料,是一个txt,每行相当于一个新闻。 国家包括了Python的Jieba分词代码,详见博客。 免费资源希望对你有所帮助~
2019-12-21 19:41:38 142.09MB word2vec 源码 中文预料 词向量
1
中文维基glove词向量(已训练)-part1,中文维基glove词向量(已训练)-part1
2019-12-21 19:37:14 190.73MB glove
1
中文维基glove词向量(已训练)-part2中文维基glove词向量(已训练)-part2
2019-12-21 19:37:14 113.06MB glove
1