20个新闻组文本分类 本笔记本包含使用数据集、使用和库的文本分类实现,以及使用库的一些模型解释。 本笔记本随附的博客文章:
1
对搜狗实验室的2012搜狐新闻语料进行切分、格式转换(已转为UTF8),从中抽取了11个新闻类别并分文件夹存储,每个txt文件包含600篇新闻。数据大概共54M,可以用于中文分类。
2021-10-27 19:57:18 53.84MB 文本分类 新闻语料 搜狐新闻
1
ROST CM绿色中文版,武汉大学编写,进行分类、预测,内容挖掘系统
2021-10-24 12:50:19 8.57MB ROST 文本分类
1
(结合哈工大停用词表、四川大学机器智能实验室停用词库、百度停用词表等)
1
该文本内容详细介绍了CNN算法和文本分类的相互关系 我觉得挺好的 希望大家喜欢
2021-10-22 14:13:22 465KB CNN 文本分类
1
NLP学习指南 本教程致力于帮助同学们快速入门NLP,并掌握各个任务的SOTA模型。 各任务模型列表汇总:,,,(todo), 各任务概述和技巧:,文本匹配,序列标注,文本生成,语言模型 之后就可以开始逐个击破,但也不用死磕,控制好目标难度,先用三个月时间进行第一轮学习: 读懂机器学习,深度学习原理,不要求手推公式 了解经典任务的基准,动手实践,看懂代码 深入一个应用场景,尝试自己修改模型,提升效果 迈过了上面这道坎后,就可以重新回归理论,提高对自己的要求,某种手推公式,盲写模型,拿到比赛Top等。 第一步:基础原理 机器学习最初入门时对数学的要求不是很高,掌握基础的线性代数,概率论就可以了,正常读下来的理工科大学生以上应该都没问题,可以直接开始学,碰到不清楚的概念再去复习。 统计机器学习部分,建议初学者先看懂线性分类,SVM,树模型和图模型,这里推荐李航的“统计学习方法”,薄的摸起来没有
2021-10-20 20:00:38 17KB
1
针对文本自动分类问题,提出了一种基于LSA降维的KNN改进算法。通过对文本特征向量运用LSA理论进行降维处理,可以有效提高KNN算法的运行效率,提高分类精度。实验证明,改进的KNN算法具有很好的性能。
2021-10-20 17:42:00 532KB 自然科学 论文
1
将训练集、测试集、验证集、标签集放到THUCNews/data文件夹下即可。数据格式为每行一个句子加它的标签,用\t分隔开。文件中已经包含了BERT的预训练模型。项目的详解博客在https://blog.csdn.net/Q_M_X_D_D_/article/details/120583820
2021-10-18 22:10:56 365.95MB BERT 自然语言处理 文本分类
1
用朴素贝叶斯分类算法做中文文本分类-附件资源
2021-10-18 12:38:16 106B
1
承接之前写的“机器学习之线性模型”的那篇文章,这里运用逻辑回归模型实现对文本的一个大体分类,目的是进一步熟悉逻辑回归的运用和sklearn工具包的使用,理解各参数代表的含义,并没有特意做数据处理、特征工程和模型优化方面的考虑来提高准确度。 数据来源于:https://www.dcjingsai.com/common/cmpt/“达观杯”文本智能处理挑战赛_赛体与数据.html 也可以通过如下网盘下载: 链接:https://pan.baidu.com/s/1P67-jvrI2IhZtsWEQWtwkg 提取码:5uvx 题目说明 题目的详细说明可以去赛题官网查看,这里简单描述下: 官方赛道给出
2021-10-15 20:37:22 55KB c gi gis
1