NLP-study 记录做过的NLP任务,包含但不限于文本分类,关系分类,命名实体识别,文本摘要,文本生成等,基于tensorflow2.0或者pytorch框架。
2024-01-12 21:57:28 83.48MB Python
1
短文本分类是自然语言处理的一个研究热点.为提高文本分类精度和解决文本表示稀疏问题,提出了一种全新的文本表示(N-of-DOC)方法.采用Word2Vec分布式表示一个短语,将其转换成的向量作为卷积神经网络模型的输入,经过卷积层和池化层提取高层特征,输出层接分类器得出分类结果.实验结果表明,与传统机器学习(K近邻,支持向量机,逻辑斯特回归,朴素贝叶斯)相比,提出的方法不仅能解决中文文本向量的维数灾难和稀疏问题,而且在分类精度上也比传统方法提高了4.23%.
1
互联网已经成为现代生活中不可或缺的一部分,网络上的信息量也在以数倍的速度快速增长。无论是企事业单位,学校,或者科研院校等等机构中,都积累了非常多的资料,这些资料绝大多数都以文档的形式存在。所以,如何将数以万计且排序混乱的文本信息,按照一定的规则和形式进行统一的管理,以达到方便使用和管理的目的成为了一个不得不去解决的问题。本文就是在SVM,即支持向量机方法的基础上,设计了一个中文文本分类系统。介绍了系统的需求分析,并对系统进行了详细设计,从概念的初始化设计到之后的详细设计,实现了基于SVM的中文文本分类系统的最终目的,达到了设计要求。
1
信息检索:基于知识图谱和深度学习的文本表示和搜索(Explicit and distributed semantics for text representation and retrieval)-附件资源
2021-12-24 11:40:32 106B
1
当今时代, 网络舆情传播速度快、影响力大, 而话题检测在网络舆情监管中有着不可替代的作用. 针对传统方法提取文本特征不完整和特征维度过高的问题, 本文提出了基于时间衰减因子的LDA&&Word2Vec文本表示模型, 将LDA模型的隐含主题特征和Word2Vec模型的语义特征进行加权融合, 并引入了时间衰减因子, 同时起到了降维和提高文本特征完整度的作用. 同时, 本文又提出了Single-Pass-SOM组合聚类模型, 该模型解决了SOM模型需要设定初始神经元的问题, 提高了话题聚类的精度. 实验结果表明, 本文提出的文本表示模型和文本聚类方法较传统方法拥有更好的话题检测效果.
1
Doc2Vec文本分类 文本分类模型,该模型使用gensim Doc2Vec生成段落嵌入,并使用scikit-learn Logistic回归进行分类。 数据集 25,000个IMDB电影评论,特别选择用于情感分析。 评论的情绪是二进制的(1表示肯定,0表示否定)。 与以下出版物相关联地收集了此源数据集: Andrew L. Maas, Raymond E. Daly, Peter T. Pham, Dan Huang, Andrew Y. Ng, and Christopher Potts. (2011). "Learning Word Vectors for Sentiment An
1
python实现tf-idf
2021-05-19 14:02:52 163KB python 文本表示
1