保险领域的问答系统训练语料,可以用来训练chatbot,希望有帮助
2019-12-21 20:35:50 84.16MB 问答系统
1
处理好的人民日报语料,用于命名实体识别,两个文件分别为字符集和词语级
2019-12-21 20:35:50 4.53MB 自然语言处理 命名实体识别
1
著名的Sighan Bakeoff语料。包含了训练集、测试集及测试集的(黄金)标准切分。
2019-12-21 20:35:03 2.33MB 命名实体识别 数据集
1
中文,情感分析,中文观点倾向性分析评测语料,任务1。
2019-12-21 20:31:26 18.23MB 情感分析
1
现在网上大部分谭松波老师的评论语料资源的编码方式都是gb2312,本资源除了原始编码格式,还具有UTF-8编码格式。 本资源还包含将所有语料分成pos.txt和neg.txt两个文件,每个文件中的一行代表原始数据的一个txt文件,即一篇评论
2019-12-21 20:30:31 9.88MB 酒店评论语料
1
不要50分,只要3分。谭松波-酒店评论语料-utf8,gb 两种格式 ,一共10000条数据。
2019-12-21 20:29:35 9.88MB 谭松波 情感分析 酒店评论 语料
1
2006年sighan命名实体识别任务语料,MSRA提供。已经转成BIO格式,可直接用于NER训练
2019-12-21 20:29:10 7.18MB NER BIO格式 bakeoff2006 MSRA语料
1
自己用来训练word2vec的,已提取文本,做了分词处理,过滤了大部分的特殊字符。 共包含3273626个段落的文本(一个段落包含了多个语句)。 处理后的语料有1.1G,由于文件较大,提供百度网盘下载地址。
2019-12-21 20:19:24 650B 维基 中文语料 word2vec
1
语料库通用技术平台Inspire1主要包括语料采集、语料加工、语料统计和语料检索等四大功能
2019-12-21 20:18:26 10.22MB 语料 检索 统计 分析
1
任务1有14000条标注训练数据非常适合做微博短文本的情感分析。
2019-12-21 20:16:58 13.6MB 情感分析
1