enwiki-latest-pages-articles1.xml-p10p30302.bz2,维基百科用来训练英文word2vec词向量的语料
2021-06-02 15:51:58 166.28MB word2vec enwiki
1
官网glove.6B的词向量,里面包含了50d、100d、200d、300d常用英文单词的词向量,来源于wiki百科和Gigaword数据集。
2021-06-01 08:42:18 867.45MB glove数据集 nlp 深度学习 预训练词向量
1
训练好的词向量文件,很好用,也很丰富,基本的词汇里面都有,每个词向量300维度,给的百度云下载链接,压缩后1.5个G
2021-05-16 20:42:19 12KB 词向量 Google 训练好的词向
1
随着微博用户的增多,微博平台的信息更新频繁。针对微博文本的数据稀疏性、新词多、用语不规范等特点,提出了基于SOM聚类的微博话题发现方法。从原始语料中对文本进行预处理,通过词向量模型对短文本进行特征提取,降低了向量维度过高带来的计算量繁重问题。采用改进的SOM对话题进行聚类,该算法改善了传统文本聚类的不足,进而能有效地发现话题。实验表明该算法较传统文本聚类算法的综合指标F值有明显提高。
1
主要包括:表示学习概述、词向量表示学习、知识表示学习和网络表示学习
2021-05-11 15:20:10 7.47MB 表示学习 知识表示学习 词向量
1
使用维基百科训练简体中文词向量-附件资源
2021-05-11 03:43:54 106B
1
使用训练词向量进行词义消歧,使用pyltp进行语义角色标注
2021-05-07 10:02:50 48KB 词向量 pyltp 词义消歧 语义角色标注
关键词提取是诸多文本挖掘任务的前置任务,其精度直接影响了下游任务的性能。 以中文专利为研究对象,针对专利文本的特点,将关键词提取问题转换成词向量聚类问题,提出了一种基于cw2vec词向量的关键词提取方法,称为KEC。该方法首先利用科技文献的关键词以及开源词典构建领域词典;接着,基于领域词典对专利文本进行预处理获取候选关键词,并采用构建cw2vec模型获得候选关键词的词向量表示;最后,采用聚类算法提取最终的关键词。在真实的专利数据集上进行了实验验证,结果表明KEC在精确率、召回率、综合指标F1等指标项上优于现有的其他基于词聚类的关键词提取方法。
2021-04-30 17:03:00 1.29MB 中文专利 词向量 关键词提取
1
自己写的Word2vec工具包,参数可以在文件内部自行修改
2021-04-27 19:38:34 1KB 词向量
1
著名的glove词向量,上Billion个词,每个词N维,可用于深度模型初始化,BERT之后仍有其价值
2021-04-23 17:04:47 1.63GB NLP
1