基于Word2vec词向量的文本关键字抽取,李清,朱文浩,信息技术的不断发展使得许多领域信息呈现爆炸式增长,如何从大规模文本信息中快速而准确地获取所需信息成为一个巨大的挑战。关键
2022-02-15 23:37:42 768KB 自然语言处理
1
word2vec是一个将单词转换成向量形式的工具。可以把对文本内容的处理简化为向量空间中的向量运算,计算出向量空间上的相似度,来表示文本语义上的相似度。
2022-02-12 22:49:17 1.97MB word2vec 词向量
1
Python文本生成程序,从零训练词向量,一分钟生成古诗对联~
2022-02-03 23:36:59 4.33MB 词向量 文本生成
1
资源来源 https://github.com/Embedding/Chinese-Word-Vectors
2022-01-31 16:08:26 707.81MB 自然语言处理 人工智能 nlp 中文词向量
1
在文本分类中,基于Word2Vec词向量的文本表示忽略了词语区分文本的能力,设计了一种用TF-IDF加权词向量的卷积神经网络(CNN)文本分类方法.新闻文本分类,一般只考虑正文,忽略标题的重要性,改进了TF-IDF计算方法,兼顾了新闻标题和正文.实验表明,基于加权词向量和CNN的新闻文本分类方法比逻辑回归分类效果有较大提高,比不加权方法也有一定的提高.
1
近年来, 卷积神经网络模型常常被用于文本情感分类的研究中, 但多数研究都会忽略文本特征词本身所携带的情感信息和中文文本分词时被错分的情况. 针对此问题, 提出一种融合情感特征的双通道卷积神经网络情感分类模型(Dual-channel Convolutional Neural Network sentiment classification model fused with Sentiment Feature, SFD-CNN). 该模型在构造输入时以一条通道构造融合情感特征的语义向量矩阵以获取到更多的情感类型信息, 以另一条通道构造文本字向量矩阵以降低分词错误的影响. 实验结果表明, SFD-CNN模型准确率高达92.94%, 要优于未改进的模型.
1
针对词向量文本分类模型记忆能力弱, 缺少全局词特征信息等问题, 提出基于宽度和词向量特征的文本分类模型(WideText): 首先对文本进行清洗、分词、词元编码和定义词典等, 计算全局词元的词频-逆文档频度(TF-IDF)指标并将每条文本向量化, 将输入文本中的词通过编码映射到词嵌入矩阵中, 词向量特征经嵌入和平均叠加后, 和基于TF-IDF的文本向量特征进行拼接, 传入到输出层后计算属于每个分类的概率. 该模型在低维词向量的基础上结合了文本向量特征的表达能力, 具有良好的泛化和记忆能力. 实验结果表明, 在引入宽度特征后, WideText分类性能不仅较词向量文本分类模型有明显提升, 且略优于前馈神经网络分类器.
2022-01-07 09:59:39 995KB Word2Vec FastText WideText 文本分类
1
glove.6B.50d数据集,来源于wiki百科和Gigaword数据集。
2021-12-22 20:48:53 61.18MB NLP glove
1
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/thriving_fcl/article/detail
2021-12-19 15:51:37 128.64MB 源码 工具
1
感觉改造 使用此工具将任何词向量模型改造为语义本体,以导出特定于语义的向量。 由此产生的模型不仅捕捉到了语义差异,而且在几个语义任务上通常在经验上更好。 该技术的详细信息可以在 Jauhar 等人中找到。 阿尔。 (2015)。 要求 Python 2.7 一种。 麻木的湾scipy 数据 词向量 包含预训练词向量模型的文件。 第一行必须指定向量空间模型的维度,之后每行给出一个词向量。 有关示例,请参见data/samplevec.txt.gz 。 输出词向量的格式完全相同。 对于两者,纯文本和 gzip 文件都是可以接受的。 感觉本体 包含感觉本体的局部邻域描述的文件。 同样,gzip 和纯文本文件都是可以接受的。 每行指定一个词义及其所有具有权重的邻居。 一行的一般格式是: <
2021-12-14 11:16:22 17.49MB Python
1