自然语言处理动手学Bert文本分类.zip
2022-01-13 21:02:32 210KB 学习资源
1
机器学习文本分类训练集,用于机器学习算法的训练。复旦大学
2022-01-13 17:20:54 52.96MB 机器学习 文本分类 训练集
1
文本分类代码
2022-01-09 16:39:34 5KB 文本分类 粗糙集
1
aclIMDB_v1:大型电影评论数据集(来自斯坦福大学),其中包含50,000个电影评论(50%为负,50%为正)。该集合被划分为训练和验证数据集(每个数据集有25000个电影评论,具有相同数量的正面和负面评论),还包括了5000条未标注的影评。其中有已处理好的单词包 rt-polaritydata:也是IDMB整理的数据集,较上一个数据集小,且已经大致地处理过了,标点符号分隔开,全部小写化。包含10,662个电影评论(半正,半负)。此文件中的每一行都是一则短短的电影评论。
2022-01-08 18:01:31 80.71MB IMDB影评 神经网络 文本分类 情感计算
1
SVM-Chinese-Classification 利用支持向量机实现中文文本分类 先放,如果觉得写得不错,记得加个star哦,嘻嘻~ 基本流程 1、准备好数据食材、去停用词并利用结巴**(jieba)进行分词处理** 数据食材选用参考: jieba分词模块参考啦~ # 参照代码中的cutWords.py文件 2、利用卡方检验特征选择 **卡方检验:**在构建每个类别的词向量后,对每一类的每一个单词进行其卡方统计值的计算。 首先对卡方 检验所需的 a、b、c、d 进行计算。 a 为在这个分类下包含这个词的文档数量; b 为不在该分类下包含这个词的文档数量; c 为在这个分类下不包含这个词的文档数量; d 为不在该分类下,且不包含这个词的文档数量。 然后得到该类中该词的卡方统计值 公式为 float(pow((ad - bc), 2)) /float((a+c) * (a+b) * (b+
2022-01-07 13:11:45 5.05MB Java
1
针对词向量文本分类模型记忆能力弱, 缺少全局词特征信息等问题, 提出基于宽度和词向量特征的文本分类模型(WideText): 首先对文本进行清洗、分词、词元编码和定义词典等, 计算全局词元的词频-逆文档频度(TF-IDF)指标并将每条文本向量化, 将输入文本中的词通过编码映射到词嵌入矩阵中, 词向量特征经嵌入和平均叠加后, 和基于TF-IDF的文本向量特征进行拼接, 传入到输出层后计算属于每个分类的概率. 该模型在低维词向量的基础上结合了文本向量特征的表达能力, 具有良好的泛化和记忆能力. 实验结果表明, 在引入宽度特征后, WideText分类性能不仅较词向量文本分类模型有明显提升, 且略优于前馈神经网络分类器.
2022-01-07 09:59:39 995KB Word2Vec FastText WideText 文本分类
1
主要是读取文本,然后进行分词、词干提取、去停用词、计算词频,有界面,很实用亲测可用, 谢谢支持。
2022-01-06 21:58:11 70KB 词频计算
1
该文件夹当中是我的基于深度学习的文本情感分类系统的设计与实现的毕设相关资料,包括可以完全运行的系统,还有相关论文资料等。
2022-01-05 21:52:26 39.64MB 文本分类 深度学习 毕业设计 毕设论文
1
【数据挖掘/机器学习/文本分类】2000~2019年英文文献摘要数据集,16类,每类100篇 本数据集为2000~2019年大部分英文文献摘要集合的子集,分agriculture、anatomy、business、chemistry、economics、education、geology等十六类。 每条数据由五部分组成:序号、分类、文献名称、摘要、期刊名称。 注意是英文!!!摘要!!!
1
互联网已经成为现代生活中不可或缺的一部分,网络上的信息量也在以数倍的速度快速增长。无论是企事业单位,学校,或者科研院校等等机构中,都积累了非常多的资料,这些资料绝大多数都以文档的形式存在。所以,如何将数以万计且排序混乱的文本信息,按照一定的规则和形式进行统一的管理,以达到方便使用和管理的目的成为了一个不得不去解决的问题。本文就是在SVM,即支持向量机方法的基础上,设计了一个中文文本分类系统。介绍了系统的需求分析,并对系统进行了详细设计,从概念的初始化设计到之后的详细设计,实现了基于SVM的中文文本分类系统的最终目的,达到了设计要求。
1