搜索【语料】的结果

基本AIML格式中文语料1000条

基本AIML格式中文语料1000条，问题来自常用中文短语，答案来自网络采集。数据量不多，格式比较完整。

2021-06-24 14:00:57 153KB AIML 中文语料 语料库

1

对语料进行词频统计

对语料进行词频统计，计算每个词出现的频数，统计出所有词的总数，求和

2021-06-23 16:33:35 943KB entropy

1

中文文本分类语料（由复旦大学李荣陆提供）(附停用词）.rar

1、资源中有语料，本语料库由复旦大学李荣陆提供。test_corpus为测试语料，共9833篇文档；train_corpus为训练语料，共9804篇文档，两个预料各分为20个相同类别。训练语料和测试语料基本按照1:1的比例来划分。使用时尽量注明来源（复旦大学计算机信息与技术系国际数据库中心自然语言处理小组）。 2、资源中还附有一份停用词。

2021-06-14 10:38:46 86.75MB 中文文本分类 文本分类 语料 停用词

1

NER中文语料集.zip

整合格式为：字 BIO标签格式，可以直接使用主流NER模型进行训练

2021-06-12 16:10:21 11.52MB NER NLP CORPUS

1

新浪微博，情感分析标记语料共12万条_新浪微博

本资源为自己人工标记的微博语料，分为消极pos.txt，积极neg.txt 各60000条，适用于机器学习情感分析，训练数据原数据

2021-06-06 09:06:01 8.39MB 情感分析标记语料 消极pos 积极neg 情感分析

英文维基百科词向量训练语料

enwiki-latest-pages-articles1.xml-p10p30302.bz2，维基百科用来训练英文word2vec词向量的语料

2021-06-02 15:51:58 166.28MB word2vec enwiki

1

复旦大学文本分类语料[完整版训练集+测试集]

answer文件夹为测试语料，共9833篇文档；train文件夹为训练语料，共9804篇文档，分为20个类别。训练语料和测试语料基本按照1:1的比例来划分。收集工作花费了不少人力和物力，所以请大家在使用时尽量注明来源（复旦大学计算机信息与技术系国际数据库中心自然语言处理小组）。文件较大（训练测试集压缩包各50多兆）

2021-06-01 19:28:39 105.93MB 机器学习 文本分类 分类语料 中文语料库

1

供垃圾邮件分类的中文邮件语料库

从外网中得到的56m中文邮件语料，供垃圾邮件分类的数据集

2021-05-25 16:32:05 12KB 邮件分类 中文语料 贝叶斯

1

酒店评论语料-UTF-8,10000条

现在网上大部分谭松波老师的评论语料资源的编码方式都是gb2312，本资源除了原始编码格式，还具有UTF-8编码格式。本资源还包含将所有语料分成pos.txt和neg.txt两个文件，每个文件中的一行代表原始数据的一个txt文件，即一篇评论

2021-05-23 13:02:37 9.89MB 酒店评论语料

1

中文命名实体识别语料（MSRA+人民日报+Boson）

适合作为命名实体识别的补充预料，包括微软亚研院MSRA：46365条语料、人民日报：23061条语料和Boson:2000条语料。都是标注过的，非常实用，适合新手作为刚开始的模型练习。

2021-05-21 19:28:23 5.39MB data

1

个人信息

热门下载

最新下载

其他资源