搜索【词向量】的结果

Glove词向量文本分类

文本建模，此项中的模型GLove, word2vec, 在文本分类实用重要的作用

2022-07-10 20:41:19 4.55MB 词向量 Glove

1

基于词向量和EMD距离的短文本聚类

短文本聚类在数据挖掘中发挥着重要的作用,传统的短文本聚类模型存在维度高、数据稀疏和缺乏语义信息等问题,针对互联网短文本特征稀疏、语义存在奇异性和动态性而导致的短文本聚类性能较差的问题,提出了一种基于特征词向量的文本表示和基于特征词移动距离的短文本聚类算法。首先使用Skip-gram模型(Continuous Skip-gram Model)在大规模语料中训练得到表示特征词语义的词向量;然后利用欧式距离计算特征词相似度,引入EMD(Earth Mover's Distance)来计算短文本间的相似度;最后将其应用到Kmeans聚类算法中实现短文本聚类。在3个数据集上进行的评测结果表明,效果优于传统的聚类算法。

2022-06-23 11:19:25 1.18MB 短文本; EMD距离; 词向量; 相似度计算;

1

词向量表示学习-表示学习（知识表示、网络表示等）

词向量表示学习 02

2022-06-04 16:02:46 7.46MB 表示学习 网络表示学习 知识表示学习 词向量

1

Word2Vec:采用Word2Vec训练词向量，数据集：STS

Word2Vec 采用Word2Vec训练词向量，数据集：STS

2022-05-16 22:10:36 14KB Java

1

中英文语料训练CBOW模型获得词向量（pytorch实现）

自然语言处理第二次作业： data文件夹中存储语料（中文语料以及英文语料由老师提供，另一份为中文停用词语料） output文件夹中存储输出的词向量文件 script文件夹中为CBOW的脚本，同时处理中文语料与英文语料运行步骤：在脚本中确定训练中文或者是英语后，直接运行即可

2022-05-11 10:42:22 13.58MB nlp pytorch cbow 词向量

1

中文Glove词向量，内有分别有50、100、200、300维

Glove词向量，内有分别有50、100、200、300维

2022-05-08 14:36:06 750.52MB 支持向量机 算法 机器学习 人工智能

1

glove.6B.100d词向量数据

glove.6B.100d词向量数据集，来源于wiki百科和Gigaword数据集。

2022-04-10 17:08:07 119.07MB NLP glove

1

维基百科中文词向量.zip

维基百科词向量 sgns.wiki.char.bz2解压后文件后缀名是.char, 可以通过一些方法得到.txt结尾的文件，有35万多个字词和符号，300维的向量表示。将词向量作为词嵌入层时需要加载全部的词向量到内存，如果计算机的内存不够大，会直接内存溢出。所以，截取8000，20000个词汇的词向量进行使用，在配置普遍的设备也能运行。该项目提供了100多个使用不同表示（密集和稀疏），上下文特征（单词，ngram，字符等）和语料库训练的中文单词向量（嵌入）。人们可以很容易地获得具有不同属性的预训练向量，并将它们用于下游任务。

2022-04-02 15:34:26 336.39MB 维基百科 维基百科中文词向量 中文词向量

1

中文预训练词向量（知乎问答 word2vec +Ngram)-数据集

中文预训练词向量北京师范大学中文信息处理研究所与中国人民大学 DBIIR 实验室的研究者开源的"chinese-word-vectors"。github地址为：https://github.com/Embedding/Chinese-Word-Vectors 此中文预训练词向量为知乎Word + Ngram的词向量

2022-03-18 09:38:10 225.28MB 数据集

1

北京地区网络招聘信息文本挖掘.rar

使用python对51job的招聘信息进行爬虫，使用python对职位信息输出词云，词频统计图，使用jieba库进行分词，然后使用gensim的word2vec进行词向量训练，然后使用sklearn的k-means算法进行聚类。压缩包内有代码，数据，简单的小论文文档，代码来源于网络，论文自己写的，水平一般。代码在anaconda的spyder开发环境可以正常运行。

2022-02-19 21:55:10 2.02MB python爬虫 词云 词向量 K-means文本聚类

1

个人信息

热门下载

最新下载

其他资源