基本AIML格式中文语料1000条,问题来自常用中文短语,答案来自网络采集。数据量不多,格式比较完整。
2021-06-24 14:00:57 153KB AIML 中文语料 语料库
1
语料进行词频统计,计算每个词出现的频数,统计出所有词的总数,求和
2021-06-23 16:33:35 943KB entropy
1
1、资源中有语料,本语料库由复旦大学李荣陆提供。test_corpus为测试语料,共9833篇文档;train_corpus为训练语料,共9804篇文档,两个预料各分为20个相同类别。训练语料和测试语料基本按照1:1的比例来划分。使用时尽量注明来源(复旦大学计算机信息与技术系国际数据库中心自然语言处理小组)。 2、资源中还附有一份停用词。
2021-06-14 10:38:46 86.75MB 中文文本分类 文本分类 语料 停用词
1
整合格式为 :字 BIO标签 格式,可以直接使用主流NER模型进行训练
2021-06-12 16:10:21 11.52MB NER NLP CORPUS
1
本资源为自己人工标记的微博语料,分为消极pos.txt,积极neg.txt 各60000条,适用于机器学习情感分析,训练数据原数据
enwiki-latest-pages-articles1.xml-p10p30302.bz2,维基百科用来训练英文word2vec词向量的语料
2021-06-02 15:51:58 166.28MB word2vec enwiki
1
answer文件夹为测试语料,共9833篇文档;train文件夹为训练语料,共9804篇文档,分为20个类别。训练语料和测试语料基本按照1:1的比例来划分。收集工作花费了不少人力和物力,所以请大家在使用时尽量注明来源(复旦大学计算机信息与技术系国际数据库中心自然语言处理小组)。文件较大(训练测试集压缩包各50多兆)
2021-06-01 19:28:39 105.93MB 机器学习 文本分类 分类语料 中文语料库
1
从外网中得到的56m中文邮件语料,供垃圾邮件分类的数据集
2021-05-25 16:32:05 12KB 邮件分类 中文 语料 贝叶斯
1
现在网上大部分谭松波老师的评论语料资源的编码方式都是gb2312,本资源除了原始编码格式,还具有UTF-8编码格式。 本资源还包含将所有语料分成pos.txt和neg.txt两个文件,每个文件中的一行代表原始数据的一个txt文件,即一篇评论
2021-05-23 13:02:37 9.89MB 酒店评论语料
1
适合作为命名实体识别的补充预料,包括微软亚研院MSRA:46365条语料、人民日报:23061条语料和Boson:2000条语料。都是标注过的,非常实用,适合新手作为刚开始的模型练习。
2021-05-21 19:28:23 5.39MB data
1