用python实现的朴素贝叶斯,部分分类正确率达到95%以上,对于部分主题敏感度不高。
2020-01-03 11:32:34 933KB python 贝叶斯
1
AI Challenger 全球AI挑战赛”是面向全球人工智能人才的开源数据集和编程竞赛平台,致力于满足AI人才成长对高质量丰富数据集的需求,推动AI在科研与商业领域结合来解决真实世界的问题。AI Challenger以服务、培养AI人才为使命,打造良性可持续的AI科研与应用新生态。2017年首届大赛发布了千万量级的数据集、一系列兼具学术与产业意义的竞赛、超过200万人民币的奖金,吸引了来自全球65个国家的8892支团队参赛,成为目前国内规模最大的科研数据集平台、以及最大的非商业化竞赛平台。AI Challenger 2018带来十余个全新的数据集与竞赛,以及超过300万人民币的奖金,“用AI挑战真实世界的问题
1
本语料库由复旦大学李荣陆提供。训练和测试两个语料各分为20个相同类别。训练语料和测试语料基本按照1:1的比例来划分。使用时尽量注明来源(复旦大学计算机信息与技术系国际数据库中心自然语言处理小组)。
2020-01-03 11:24:19 109.68MB 文本分类
1
数据堂已经打不开了, 以前备份留下来的网易文本分类数据, dataid=602151
2020-01-03 11:19:20 37.74MB 数据 训练集 语料
1
中文和英文的停用词表,分为两个文件,中文和英文的都有,收集应该比较齐全,大家看看
2019-12-30 03:10:57 3KB 停用词
1
https://blog.csdn.net/zzZ_CMing/article/details/89478436 朴素贝叶斯算法做文本分类,用的是谭松波酒店语料。
2019-12-25 11:57:19 1.14MB bayes 文本分类 谭松波
1
由复旦大学李荣陆提供。answer.rar为测试语料,共9833篇文档;train.rar为训练语料,共9804篇文档,分为20个类别。训练语料和测试语料基本按照1:1的比例来划分。收集工作花费了不少人力和物力,所以请大家在使用时尽量注明来源(复旦大学计算机信息与技术系国际数据库中心自然语言处理小组)。
2019-12-25 11:15:53 103.28MB 数据集 中文语料库
1
朴素贝叶斯实战代码,含注释,分为两个模块,第一模型实现,第二进行文本分类。事实上利用的是词袋模型的朴素贝叶斯,也就是多项式事件模型。利用python3进行编程实现。
2019-12-22 20:10:10 26KB 朴素贝叶斯 实战 python 文本分类
1
SougoCS数据集,内含11类搜狐新闻文本,近10万条。 搜狗提供的数据为未分类的XML格式。 此资源已经将XML解析并分类完毕,方便使用。
2019-12-21 22:23:09 94.29MB NLP 自然语言处理 文本分类 搜狗
1
该数据集包含了1,600,000条从推特爬取的推文,可用于情感分析相关的训练。 该数据集包含两个数据文件:测试集(test)和训练集(training) 数据文件没有包含heading,从左到右分别是: (1)推文标注(polarity): 0 = 负面,2 = 中立,4 = 正面 (2)推文的id (3)时间:Sat May 16 23:58:44 UTC 2009 (4)Query (lyx),如果没有query,数值为NO_QUERY. (5)发推的用户:robotickilldozr (6)推文内容
2019-12-21 22:23:09 86.3MB 文本分类 自然语言处理 NLP 情感分类
1