中文,情感分析,中文观点倾向性分析评测语料,任务1。
2019-12-21 20:31:26 18.23MB 情感分析
1
现在网上大部分谭松波老师的评论语料资源的编码方式都是gb2312,本资源除了原始编码格式,还具有UTF-8编码格式。 本资源还包含将所有语料分成pos.txt和neg.txt两个文件,每个文件中的一行代表原始数据的一个txt文件,即一篇评论
2019-12-21 20:30:31 9.88MB 酒店评论语料
1
不要50分,只要3分。谭松波-酒店评论语料-utf8,gb 两种格式 ,一共10000条数据。
2019-12-21 20:29:35 9.88MB 谭松波 情感分析 酒店评论 语料
1
2006年sighan命名实体识别任务语料,MSRA提供。已经转成BIO格式,可直接用于NER训练
2019-12-21 20:29:10 7.18MB NER BIO格式 bakeoff2006 MSRA语料
1
自己用来训练word2vec的,已提取文本,做了分词处理,过滤了大部分的特殊字符。 共包含3273626个段落的文本(一个段落包含了多个语句)。 处理后的语料有1.1G,由于文件较大,提供百度网盘下载地址。
2019-12-21 20:19:24 650B 维基 中文语料 word2vec
1
语料库通用技术平台Inspire1主要包括语料采集、语料加工、语料统计和语料检索等四大功能
2019-12-21 20:18:26 10.22MB 语料 检索 统计 分析
1
任务1有14000条标注训练数据非常适合做微博短文本的情感分析。
2019-12-21 20:16:58 13.6MB 情感分析
1
共22000条酒店评论情感分析语料,包括pos积极语料,neg消极语料
2019-12-21 20:16:56 15.04MB 情感分析 中文 酒店评论
1
哈尔冰工业大学语料,需要的下载,HIT-CDTB-1.0
2019-12-21 20:16:13 9.6MB 数据
1
语料规模为10000篇。语料从携程网上自动采集,并经过整理而成。为了方便起见,语料被整理成4个子集: 1.ChnSentiCorp-Htl-ba-2000: 平衡语料,正负类各1000篇。 2.ChnSentiCorp-Htl-ba-4000: 平衡语料,正负类各2000篇。 3.ChnSentiCorp-Htl-ba-6000: 平衡语料,正负类各3000篇。 4.ChnSentiCorp-Htl-unba-10000: 非平衡语料,正类为7000篇。
2019-12-21 20:13:34 9.88MB 情感分析 酒店评论 语料库
1