现在网上大部分谭松波老师的评论语料资源的编码方式都是gb2312,本资源除了原始编码格式,还具有UTF-8编码格式。 本资源还包含将所有语料分成pos.txt和neg.txt两个文件,每个文件中的一行代表原始数据的一个txt文件,即一篇评论
2019-12-21 20:30:31 9.88MB 酒店评论语料
1
不要50分,只要3分。谭松波-酒店评论语料-utf8,gb 两种格式 ,一共10000条数据。
2019-12-21 20:29:35 9.88MB 谭松波 情感分析 酒店评论 语料
1
语料规模为10000篇。语料从携程网上自动采集,并经过整理而成。为了方便起见,语料被整理成4个子集: 1.ChnSentiCorp-Htl-ba-2000: 平衡语料,正负类各1000篇。 2.ChnSentiCorp-Htl-ba-4000: 平衡语料,正负类各2000篇。 3.ChnSentiCorp-Htl-ba-6000: 平衡语料,正负类各3000篇。 4.ChnSentiCorp-Htl-unba-10000: 非平衡语料,正类为7000篇。
2019-12-21 20:13:34 9.88MB 情感分析 酒店评论 语料库
1