搜索【语料】的结果

问答系统训练语料

保险领域的问答系统训练语料，可以用来训练chatbot，希望有帮助

2019-12-21 20:35:50 84.16MB 问答系统

1

处理好的人民日报语料，可以直接用CRF训练命名实体

处理好的人民日报语料，用于命名实体识别，两个文件分别为字符集和词语级

2019-12-21 20:35:50 4.53MB 自然语言处理 命名实体识别

1

SIGHAN 2006 Bakeoff-3中文语料

著名的Sighan Bakeoff语料。包含了训练集、测试集及测试集的（黄金）标准切分。

2019-12-21 20:35:03 2.33MB 命名实体识别 数据集

1

COAE2014语料

中文，情感分析，中文观点倾向性分析评测语料，任务1。

2019-12-21 20:31:26 18.23MB 情感分析

1

谭松波-酒店评论语料-UTF-8,10000条

现在网上大部分谭松波老师的评论语料资源的编码方式都是gb2312，本资源除了原始编码格式，还具有UTF-8编码格式。本资源还包含将所有语料分成pos.txt和neg.txt两个文件，每个文件中的一行代表原始数据的一个txt文件，即一篇评论

2019-12-21 20:30:31 9.88MB 酒店评论语料

1

谭松波-酒店评论语料-utf8,gb 两种格式 10000条

不要50分，只要3分。谭松波-酒店评论语料-utf8,gb 两种格式，一共10000条数据。

2019-12-21 20:29:35 9.88MB 谭松波 情感分析 酒店评论 语料

1

sighan 2006 MSRA命名实体语料(BIO格式)

2006年sighan命名实体识别任务语料，MSRA提供。已经转成BIO格式，可直接用于NER训练

2019-12-21 20:29:10 7.18MB NER BIO格式 bakeoff2006 MSRA语料

1

维基百科中文语料（已分词）

自己用来训练word2vec的，已提取文本，做了分词处理，过滤了大部分的特殊字符。共包含3273626个段落的文本（一个段落包含了多个语句）。处理后的语料有1.1G，由于文件较大，提供百度网盘下载地址。

2019-12-21 20:19:24 650B 维基 中文语料 word2vec

1

语料库通用技术平台INSPIRE

语料库通用技术平台Inspire1主要包括语料采集、语料加工、语料统计和语料检索等四大功能

2019-12-21 20:18:26 10.22MB 语料检索统计分析

1

NLPCC2014任务1和任务2微博情感分析语料

任务1有14000条标注训练数据非常适合做微博短文本的情感分析。

2019-12-21 20:16:58 13.6MB 情感分析

1