网易新闻语料库 文本分类 自然语言处理 网上基本找不到哦~~
2019-12-21 20:12:04 37.74MB 网易新闻语料 文本分类 自然语言处理
1
由复旦大学李荣陆提供。收集工作花费了不少人力和物力,所以请大家在使用时尽量注明来源(复旦大学计算机信息与技术系国际数据库中心自然语言处理小组)。train.zip为训练语料,共9804篇文档,分为20个类别。answer.zip为训练语料,共9833篇文档,同为20个类别。训练语料与测试语料基本按照1:1的比例来划分
2019-12-21 20:08:37 52.56MB NLP 文本分类 语料库 训练集
1
微信或QQ聊天机器人的语料库和知识库,图灵机器人的知识库或语料库
1
北京大学语料库(1 833 177 字)包含训练和测试集,文本格式的数据,包含utf8和GBK两种格式
2019-12-21 19:53:14 3.55MB 自然语言 语料库
1
微软亚洲研究院语料库(1 089 050 字,训练集和测试集),有UTF8和GBK两种格式
2019-12-21 19:53:14 7.29MB 语料库 自然语言
1
人民日报语料库,适合机器学习训练使用,分词等。
2019-12-21 19:51:35 17.65MB 语料
1
CTB6汉语分词语料库,可以拿来做分词任务。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。
2019-12-21 19:47:41 6.3MB 自然语言处理 分词 语料库
1
美国当代英语语料库COCA词频20000 高频2W (完整) 格式:pdf, word文档, txt, excel文档
2019-12-21 19:42:11 15.76MB 英语 单词 coca 词频表
1
已做预处理:分词、剔除停用词 可直接拿来统计建立文本模型
2019-12-21 19:39:47 6.88MB NLP Newsgroup 英文语料库 新闻组
1
Chinese Treebank 8.0 LDC中文句树库(LDC2013T21),已标注句子的各个词语词性、句中成分、语义信息,可用于自然语言处理的句法分析或词性标注等任务。
2019-12-21 19:38:37 23.39MB nlp 自然语言处理 语料库 句树
1