为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为Stop Words(停用词)。这些停用词都是人工输入、非自动化生成的,生成后的停用词就形成一个停用词表
2022-03-26 16:41:58 3KB 停用词
1
基于贝叶斯,SVM对文本进行分类,详细介绍了如何进行文本分类,如python+jieba+skelam
2022-03-26 10:29:17 4.81MB 分类 文本
1
文本分类是NLP领域的较为容易的入门问题,本文记录我自己在做文本分类任务以及复现相关论文时的基本流程,绝大部分操作都使用了torch和torchtext两个库。 1. 文本数据预处理 首先数据存储在三个csv文件中,分别是train.csv,valid.csv,test.csv,第一列存储的是文本数据,例如情感分类问题经常是用户的评论review,例如imdb或者amazon数据集。第二列是情感极性polarity,N分类问题的话就有N个值,假设值得范围是0~N-1。 下面是很常见的文本预处理流程,英文文本的话不需要分词,直接按空格split就行了,这里只会主要说说第4点。 1、去除非文本部分
2022-03-25 16:53:18 100KB c ex ext
1
传统随机森林分类算法采用平均多数投票规则不能区分强弱分类器,而且算法中超参数的取值需要调节优化.在研究了随机森林算法在文本分类中的应用技术及其优缺点的基础上对其进行改进,一方面对投票方法进行优化,结合决策树的分类效果和预测概率进行加权投票,另一方面提出一种结合随机搜索和网格搜索的算法对超参数调节优化.Python环境下的实验结果表明本文方法在文本分类上具有良好的性能.
1
是一个不错的中文分类器,里面包括knn 和svm分类法。李荣陆的作品。安装后即可使用。
2022-03-24 09:21:20 16.61MB 分类器 中文
1
简介 1、本项目是在tensorflow版本1.14.0的基础上做的训练和测试。 2、本项目为中文的文本情感分析,为多文本分类,一共3个标签:1、0、-1,分别表示正面、中面和负面的情感。 3、欢迎大家联系我 4、albert_small_zh_google对应的百度云下载地址: 链接: 提取码:wuxw 使用方法 1、准备数据 数据格式为:sentiment_analysis_albert/data/sa_test.csv 2、参数设置 参考脚本 hyperparameters.py,直接修改里面的数值即可。 3、训练 python train.py 4、推理 python predict.py 知乎代码解读
1
本项目为基于CNN,RNN 和NLP中预训练模型构建的多个常见的文本分类模型
2022-03-22 16:04:58 290.11MB Python开发-自然语言处理
1
使用中科院分词系统和林智仁的libsvm进行设计的系统 主要使用java语言进行开发 其他更多的信息:你查看readme文件
1
请看博客https://blog.csdn.net/qq_41335232/article/details/121664394
2022-03-14 09:28:18 413.74MB 文本分类 Bert 多标签文本分类 pytorch
1
BERT文本分类代码对应的数据
2022-03-14 09:10:32 1.48MB BERT
1