文本建模,此项中的模型GLove, word2vec, 在文本分类实用重要的作用
2022-07-10 20:41:19 4.55MB 词向量 Glove
1
短文本聚类在数据挖掘中发挥着重要的作用,传统的短文本聚类模型存在维度高、数据稀疏和缺乏语义信息等问题,针对互联网短文本特征稀疏、语义存在奇异性和动态性而导致的短文本聚类性能较差的问题,提出了一种基于特征词向量的文本表示和基于特征词移动距离的短文本聚类算法。首先使用Skip-gram模型(Continuous Skip-gram Model)在大规模语料中训练得到表示特征词语义的词向量;然后利用欧式距离计算特征词相似度,引入EMD(Earth Mover's Distance)来计算短文本间的相似度;最后将其应用到Kmeans聚类算法中实现短文本聚类。在3个数据集上进行的评测结果表明,效果优于传统的聚类算法。
2022-06-23 11:19:25 1.18MB 短文本; EMD距离; 词向量; 相似度计算;
1
Word2Vec 采用Word2Vec训练词向量,数据集:STS
2022-05-16 22:10:36 14KB Java
1
自然语言处理第二次作业: data文件夹中存储语料(中文语料以及英文语料由老师提供,另一份为中文停用词语料) output文件夹中存储输出的词向量文件 script文件夹中为CBOW的脚本,同时处理中文语料与英文语料 运行步骤:在脚本中确定训练中文或者是英语后,直接运行即可
2022-05-11 10:42:22 13.58MB nlp pytorch cbow 词向量
1
Glove词向量,内有分别有50、100、200、300维
2022-05-08 14:36:06 750.52MB 支持向量机 算法 机器学习 人工智能
1
glove.6B.100d词向量数据集,来源于wiki百科和Gigaword数据集。
2022-04-10 17:08:07 119.07MB NLP glove
1
维基百科词向量 sgns.wiki.char.bz2解压后文件后缀名是.char, 可以通过一些方法得到.txt结尾的文件,有35万多个字词和符号,300维的向量表示。将词向量作为词嵌入层时需要加载全部的词向量到内存,如果计算机的内存不够大,会直接内存溢出。所以,截取8000,20000个词汇的词向量进行使用,在配置普遍的设备也能运行。该项目提供了100多个使用不同表示(密集和稀疏),上下文特征(单词,ngram,字符等)和语料库训练的中文单词向量(嵌入)。人们可以很容易地获得具有不同属性的预训练向量,并将它们用于下游任务。
1
中文预训练词向量北京师范大学中文信息处理研究所与中国人民大学 DBIIR 实验室的研究者开源的"chinese-word-vectors"。github地址为:https://github.com/Embedding/Chinese-Word-Vectors 此中文预训练词向量为知乎Word + Ngram的词向量
2022-03-18 09:38:10 225.28MB 数据集
1
使用python对51job的招聘信息进行爬虫,使用python对职位信息输出词云,词频统计图,使用jieba库进行分词,然后使用gensim的word2vec进行词向量训练,然后使用sklearn的k-means算法进行聚类。压缩包内有代码,数据,简单的小论文文档,代码来源于网络,论文自己写的,水平一般。代码在anaconda的spyder开发环境可以正常运行。
2022-02-19 21:55:10 2.02MB python爬虫 词云 词向量 K-means文本聚类
1