使用RNN循环神经网络实现对爬取的京东评论信息进行情感分析 其中包括源代码、数据集、停用词等
2023-03-22 12:02:45 3.41MB 深度学习 NLP 循环神经网络 文本分类
1
以微博为代表的社交平台是信息时代人们必不可少的交流工具.挖掘微博文本数据中的信息对自动问答、舆情分析等应用研究都具有重要意义.短文本数据的分类研究是短文本数据挖掘的基础.基于神经网络的Word2vec模型能很好的解决传统的文本分类方法无法解决的高维稀疏和语义鸿沟的问题.本文首先基于Word2vec模型得到词向量,然后将类别因素引入传统权重计算方法TF-IDF (Term Frequency-Inverse Document Frequency)设计词向量权重,进而用加权求和的方法得到短文本向量,最后用SVM分类器对短文本做分类训练并且通过微博数据实验验证了该方法的有效性.
2023-03-16 16:35:47 977KB Word2Vec 短文本分类 TF-IDF
1
ChattingRobot_RNN-master.zip
2023-03-16 11:48:12 36KB 文本分类 情感分析
1
使用Bert进行文本二分类实验用的训练数据文件,仅限学习使用。
2023-03-15 10:19:54 128KB 文本分类 Bert
1
文本分类 使用Python进行文本分类的简单实践 文件 内容 罗基奥.py 使用 Rocchio 算法的文本分类。 每个文档都在一个向量空间中表示。 在训练阶段,找到每类文档的质心。 在测试阶段,计算测试文档到每个质心的距离,并将文档分配到最近的质心类。 天真的eBayes.py 使用朴素贝叶斯算法的文本分类。 每个文档在一个向量空间中表示。 在训练阶段,学习字典每个术语的类先验和类条件概率。 在测试阶段,文档被分配给给定测试文档具有最大后验概率的类。 这是一个 IPython 笔记本,展示了使用 scikits-learn 机器学习库的完整但简单的文本分类管道。 管道从文本清理和标记化开始,然后将每个文档投影到一个向量空间中。 Tfidf 加权用于对向量进行归一化。 然后测试一些分类器; 使用它们的默认参数。 最后,在蛮力参数网格搜索上使用 10 倍交叉验证,找到了一些分类器的最
2023-03-12 19:06:52 1.16MB Python
1
主要是读取文本,然后进行分词、词干提取、去停用词、计算词频,有界面,很实用
2023-03-10 13:37:17 70KB 词频计算
1
让我们从具有Amazon产品评论的数据集开始,构建结构化的类:6个“级别1”类,64个“级别2”类和510个“级别3”类。探索用于分层文本分类的各种方法。 train_40k.csv unlabeled_150k.csv val_10k.csv
2023-03-07 22:34:42 37.3MB 数据集
1
基于分词与BP网络的文本分类 首先下载整个文件,BP文本分类-语义特征提取.rar主要存放了相关的数据集 代码主要包括: 1.特征提取 首先对文本信息进行分词处理,采用基于字符串匹配的方法: 依次截取一到多个词,并与字典库进行匹配。如二狗,如果匹配到字典中有这个词,则将其分为一个词;发现字典中没有与之匹配的,则说明这个不是一个词语,进行顺序操作, 2.得到分词后的文本之后,就是转换成数字编码,因此电脑没办法识别汉字。这一部分叫特征表示,即用数字的方式表示中文文本,采用的方法是基于词带模型的特征表示 3.通过2我们将文本表示成了数字,但是这样的表示通常都是稀疏的,为此我们利用降维方法,消除掉这些冗余特征。 4. 文本分类,采用的就是bp网络(1)如pca的降维数,维数过高,包含冗余数据,过低又会删除掉重要信息。(2)bp网络结构的调整,如隐含层节点数,学习率等
2023-03-06 10:05:56 3.48MB BP神经网络 文本分类器 MATLAB
1
中文文本分类语料库
2023-03-04 20:51:30 113.53MB 中文文本分类
1
SVM分类算法处理高维数据具有较大优势,但其未考虑语义的相似性度量问题,而LDA主题模型可以解决传统的文本分类中相似性度量和主题单一性问题。为了充分结合SVM和LDA算法的优势并提高分类精确度,提出了一种新的LDA-wSVM高效分类算法模型。利用LDA主题模型进行建模和特征选择,确定主题数和隐主题—文本矩阵;在经典权重计算方法上作改进,考虑各特征项与类别的关联度,设计了一种新的权重计算方法;在特征词空间上使用这种基于权重计算的wSVM分类器进行分类。实验基于R软件平台对搜狗实验室的新闻文本集进行分类,得到了宏平均值为0.943的高精确度分类结果。实验结果表明,提出的LDA-wSVM模型在文本自动分类中具有很好的优越性能。
1