主要是读取文本,然后进行分词、词干提取、去停用词、计算词频,有界面,很实用
2023-03-10 13:37:17 70KB 词频计算
1
让我们从具有Amazon产品评论的数据集开始,构建结构化的类:6个“级别1”类,64个“级别2”类和510个“级别3”类。探索用于分层文本分类的各种方法。 train_40k.csv unlabeled_150k.csv val_10k.csv
2023-03-07 22:34:42 37.3MB 数据集
1
基于分词与BP网络的文本分类 首先下载整个文件,BP文本分类-语义特征提取.rar主要存放了相关的数据集 代码主要包括: 1.特征提取 首先对文本信息进行分词处理,采用基于字符串匹配的方法: 依次截取一到多个词,并与字典库进行匹配。如二狗,如果匹配到字典中有这个词,则将其分为一个词;发现字典中没有与之匹配的,则说明这个不是一个词语,进行顺序操作, 2.得到分词后的文本之后,就是转换成数字编码,因此电脑没办法识别汉字。这一部分叫特征表示,即用数字的方式表示中文文本,采用的方法是基于词带模型的特征表示 3.通过2我们将文本表示成了数字,但是这样的表示通常都是稀疏的,为此我们利用降维方法,消除掉这些冗余特征。 4. 文本分类,采用的就是bp网络(1)如pca的降维数,维数过高,包含冗余数据,过低又会删除掉重要信息。(2)bp网络结构的调整,如隐含层节点数,学习率等
2023-03-06 10:05:56 3.48MB BP神经网络 文本分类器 MATLAB
1
中文文本分类语料库
2023-03-04 20:51:30 113.53MB 中文文本分类
1
SVM分类算法处理高维数据具有较大优势,但其未考虑语义的相似性度量问题,而LDA主题模型可以解决传统的文本分类中相似性度量和主题单一性问题。为了充分结合SVM和LDA算法的优势并提高分类精确度,提出了一种新的LDA-wSVM高效分类算法模型。利用LDA主题模型进行建模和特征选择,确定主题数和隐主题—文本矩阵;在经典权重计算方法上作改进,考虑各特征项与类别的关联度,设计了一种新的权重计算方法;在特征词空间上使用这种基于权重计算的wSVM分类器进行分类。实验基于R软件平台对搜狗实验室的新闻文本集进行分类,得到了宏平均值为0.943的高精确度分类结果。实验结果表明,提出的LDA-wSVM模型在文本自动分类中具有很好的优越性能。
1
AG数据集:新闻主题分类数据集,用于文本分类
2023-02-21 16:19:22 7.91MB 分类 数据挖掘 人工智能 机器学习
1
中文新闻分类模型,利用TextCNN模型进行训练,TextCNN的主要流程是:获取文本的局部特征:通过不同的卷积核尺寸来提取文本的N-Gram信息,然后通过最大池化操作来突出各个卷积操作提取的最关键信息,拼接后通过全连接层对特征进行组合,最后通过交叉熵损失函数来训练模型。
2023-02-19 17:06:30 48.44MB TextCNN 文本分类
1
Bert作为目前自然语言处理领域最流行的技术之一,文本分类作为自然语言处理领域最常见的任务之一,Pytorch作为目前最流程的深度学习框架之一,三者结合在一起将会产生什么样的花火,本套课程基于Pytorch最新1.4版本来实现利用Bert实现中文文本分类任务,延续动手学系列课程风格,全程手敲代码,跟着杨博一行一行代码撸起来。
1
随着深度学习技术的快速发展,许多研究者尝试利用深度学习来解决文本分类问题,特别在卷积神 经网络和循环神经网络方面,出现了许多新颖且富有成效的分类方法。本文对基于深度神经网络的文本分类问题进行分析。
2023-02-07 17:32:42 747KB 深度学习 文本分类技术
1
基于深度学习的文本分类系统(完整代码+数据)bert+rnn textcnn fastcnn bert.rar
2023-01-17 06:50:17 5.82MB bert 文本分类 情感分析 深度学习
1