搜狐新闻语料,5000条,包括新闻标题、新闻链接、新闻内容、新闻类别。 搜狐新闻语料,5000条,包括新闻标题、新闻链接、新闻内容、新闻类别。
2022-11-20 19:33:24 9.49MB 机器学习
1
文本分类 @作者:明亮的安静@Email:sina dot com的brighthush 英文自述文件 项目介绍 这是一个用于中文文本分类的python项目。 我完成了这个项目作为自然语言理解课程的家庭作业。 在这个实验中,我使用了搜狗-文本-分类开放语料库。 我使用 TF/IDF 和信息增益作为特征提取算法。 由于我很懒,所以只实现了两个简单的分类算法,它们是 K-Nearest-Neighbour 和朴素贝叶斯分类。 在提取文本特征时,我们总是需要将句子分割成单词。 我用jieba做分词。 你也可以从获取这个模块。 代码中的命名约定 modeule_name, package_name, method_name, function_name, instance_var_name, function_parameter_name, local_var_name globa_var_n
2021-12-29 16:28:12 12KB Python
1
从各个网站上爬取的政治新闻,包括新浪网,凤凰网,环球网以及中华网!
2021-11-29 18:45:11 54.21MB 新闻语料
1
对搜狗实验室的2012搜狐新闻语料进行切分、格式转换(已转为UTF8),从中抽取了11个新闻类别并分文件夹存储,每个txt文件包含600篇新闻。数据大概共54M,可以用于中文分类。
2021-10-27 19:57:18 53.84MB 文本分类 新闻语料 搜狐新闻
1
这里面的包括的数据集包括训练集和测试集,训练集是train_corpus,测试集是test_corpus.
2021-05-06 20:55:06 2.54MB 新闻语料
1
包含体育、游戏等10个类别,共60000多条数据 格式:标签\t文本语料
2021-03-07 19:02:17 66.13MB 文本分类 新闻语料
1
搜狗1.4G 新闻语料
2019-12-21 20:36:50 116B nlp 新闻语料
1
网易新闻语料库 文本分类 自然语言处理 网上基本找不到哦~~
2019-12-21 20:12:04 37.74MB 网易新闻语料 文本分类 自然语言处理
1