使用python对51job的招聘信息进行爬虫,使用python对职位信息输出词云,词频统计图,使用jieba库进行分词,然后使用gensim的word2vec进行词向量训练,然后使用sklearn的k-means算法进行聚类。压缩包内有代码,数据,简单的小论文文档,代码来源于网络,论文自己写的,水平一般。代码在anaconda的spyder开发环境可以正常运行。
2022-02-19 21:55:10 2.02MB python爬虫 词云 词向量 K-means文本聚类
1
基于Word2vec词向量的文本关键字抽取,李清,朱文浩,信息技术的不断发展使得许多领域信息呈现爆炸式增长,如何从大规模文本信息中快速而准确地获取所需信息成为一个巨大的挑战。关键
2022-02-15 23:37:42 768KB 自然语言处理
1
word2vec是一个将单词转换成向量形式的工具。可以把对文本内容的处理简化为向量空间中的向量运算,计算出向量空间上的相似度,来表示文本语义上的相似度。
2022-02-12 22:49:17 1.97MB word2vec 词向量
1
Python文本生成程序,从零训练词向量,一分钟生成古诗对联~
2022-02-03 23:36:59 4.33MB 词向量 文本生成
1
资源来源 https://github.com/Embedding/Chinese-Word-Vectors
2022-01-31 16:08:26 707.81MB 自然语言处理 人工智能 nlp 中文词向量
1
在文本分类中,基于Word2Vec词向量的文本表示忽略了词语区分文本的能力,设计了一种用TF-IDF加权词向量的卷积神经网络(CNN)文本分类方法.新闻文本分类,一般只考虑正文,忽略标题的重要性,改进了TF-IDF计算方法,兼顾了新闻标题和正文.实验表明,基于加权词向量和CNN的新闻文本分类方法比逻辑回归分类效果有较大提高,比不加权方法也有一定的提高.
1
近年来, 卷积神经网络模型常常被用于文本情感分类的研究中, 但多数研究都会忽略文本特征词本身所携带的情感信息和中文文本分词时被错分的情况. 针对此问题, 提出一种融合情感特征的双通道卷积神经网络情感分类模型(Dual-channel Convolutional Neural Network sentiment classification model fused with Sentiment Feature, SFD-CNN). 该模型在构造输入时以一条通道构造融合情感特征的语义向量矩阵以获取到更多的情感类型信息, 以另一条通道构造文本字向量矩阵以降低分词错误的影响. 实验结果表明, SFD-CNN模型准确率高达92.94%, 要优于未改进的模型.
1
针对词向量文本分类模型记忆能力弱, 缺少全局词特征信息等问题, 提出基于宽度和词向量特征的文本分类模型(WideText): 首先对文本进行清洗、分词、词元编码和定义词典等, 计算全局词元的词频-逆文档频度(TF-IDF)指标并将每条文本向量化, 将输入文本中的词通过编码映射到词嵌入矩阵中, 词向量特征经嵌入和平均叠加后, 和基于TF-IDF的文本向量特征进行拼接, 传入到输出层后计算属于每个分类的概率. 该模型在低维词向量的基础上结合了文本向量特征的表达能力, 具有良好的泛化和记忆能力. 实验结果表明, 在引入宽度特征后, WideText分类性能不仅较词向量文本分类模型有明显提升, 且略优于前馈神经网络分类器.
2022-01-07 09:59:39 995KB Word2Vec FastText WideText 文本分类
1
glove.6B.50d数据集,来源于wiki百科和Gigaword数据集。
2021-12-22 20:48:53 61.18MB NLP glove
1
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/thriving_fcl/article/detail
2021-12-19 15:51:37 128.64MB 源码 工具
1