以微博为代表的社交平台是信息时代人们必不可少的交流工具.挖掘微博文本数据中的信息对自动问答、舆情分析等应用研究都具有重要意义.短文本数据的分类研究是短文本数据挖掘的基础.基于神经网络的Word2vec模型能很好的解决传统的文本分类方法无法解决的高维稀疏和语义鸿沟的问题.本文首先基于Word2vec模型得到词向量,然后将类别因素引入传统权重计算方法TF-IDF (Term Frequency-Inverse Document Frequency)设计词向量权重,进而用加权求和的方法得到短文本向量,最后用SVM分类器对短文本做分类训练并且通过微博数据实验验证了该方法的有效性.
2023-03-16 16:35:47 977KB Word2Vec 短文本分类 TF-IDF
1
杂货店 基于LibLinear的简单高效的短文本分类工具 嵌入作为默认标记器,以支持中文标记化 其他语言: 表现 火车组合:48个带有32个标签的新闻标题 测试集:带有32个标签的16k新闻标题 与svm和朴素贝叶斯进行比较 分类器 准确性 时间成本 scikit学习(nb) 76.8% 134 scikit学习(svm) 76.9% 121 杂货店 79.6% 49 样例代码 >> > from tgrocery import Grocery # Create a grocery(don't forget to set a name) >> > grocery = Grocery ( 'sample' ) # Train from list >> > train_src = [ ( 'education' , 'Student debt to cost Brit
2022-06-22 23:35:22 71KB C++
1
短文本分类是自然语言处理的一个研究热点.为提高文本分类精度和解决文本表示稀疏问题,提出了一种全新的文本表示(N-of-DOC)方法.采用Word2Vec分布式表示一个短语,将其转换成的向量作为卷积神经网络模型的输入,经过卷积层和池化层提取高层特征,输出层接分类器得出分类结果.实验结果表明,与传统机器学习(K近邻,支持向量机,逻辑斯特回归,朴素贝叶斯)相比,提出的方法不仅能解决中文文本向量的维数灾难和稀疏问题,而且在分类精度上也比传统方法提高了4.23%.
1
面向语义的文本分类是指在给定的分类体系下,根据文本的内容自动识别文本类别的过程。是一种基于朴素贝叶斯算法的分类技术应用与中文短文本分类
2022-04-29 14:58:40 714KB 短文本 分类 朴素贝叶斯
1
LibShortText是一个开源的Python短文本(包括标题、短信、问题、句子等)分类工具包。 python-libshorttext是对LibShortText的优化和封装。 标签:LibShortText
2022-04-29 14:45:39 161KB 开源项目
1
基于tensorflow+CNN的报警信息短文本分类-附件资源
2021-12-23 16:08:17 23B
1
以知识为动力的深度短文本分类 为了衡量知识的重要性,采用知识驱动的注意力的短文本分类法(STCKA)引入了注意机制,利用对短文本的概念(CST)的关注和对概念集的概念(C-CS)的关注来获取权重两个方面的概念。 它可以借助概念性信息对短文本进行分类。 可以在上找到纸张。 为了复制本文,我们实现了此代码。 要求 的Python == 3.7.4 pytorch == 1.3.1 torchtext == 0.3.1 麻木 tqdm 输入数据格式 片段和TagMyNews数据集可以在数据集文件夹中找到。 数据格式如下('\ t'表示TAB): origin text \t concepts ... 怎么跑 训练与开发与测试:原始数据集被随机分为80%用于训练和20%用于测试。 随机选择的训练实例的20%用于形成开发集。 python main.py --epoch 100 --lr
2021-11-15 16:58:51 6.16MB Python
1
本章节主要研究内容:基于PyTorch 深度学习工具来完成短文本分类 知识点 业务需求 文本分类应用场景、技术方案以及挑战 技术架构 文本分析 词向量 CNN 原理 tensorboardX 可视化 项目实战: 基于TextCNN短文本分类,主要从数据预处理、构建此表、Embedding、模型训练、tensorboardX可视化以及在线服务几个重要的环境进行学习 文本分类应用场景 文章分类服务对文章内容进行深度分析,输出文章的主题一级分类、主题二级分类及对应的置信度,该技术在个性化推荐、文章聚合、文本内容分析等场景具有广泛的应用价值. 新闻分类 根据文本描述的内容方向,针对新闻媒体的文章做自动
2021-06-21 11:21:20 591KB c ex ext
1
针对短文本特征稀疏、噪声大等特点,提出一种基于 LDA 高频词扩展的方法,通过抽取每个类别的高频词作为向量空间模型的特征空间,用 TF-IDF 方法将短文本表示成向量,再利用 LDA 得到每个文本的隐主题特征,将 概率大于某一阈值的隐主题对应的高频词扩展到文本中,以降低短文本的噪声和稀疏性影响。实验证明,这种方法的分类性能高于常规分类方法
2019-12-21 21:41:21 624KB LDA 短文本分类
1
针对短文本的特征稀疏性和上下文依赖性两个问题,提出一种基于隐含狄列克雷分配模型的短文本分类方法。利用模型生成的主题,一方面区分相同词的上下,降低权重; 另一方面关联不同词以减少稀疏性,增加权重。
2019-12-21 21:22:16 831KB LDA
1