共22000条酒店评论情感分析语料,包括pos积极语料,neg消极语料
2019-12-21 20:16:56 15.04MB 情感分析 中文 酒店评论
1
哈尔冰工业大学语料,需要的下载,HIT-CDTB-1.0
2019-12-21 20:16:13 9.6MB 数据
1
语料规模为10000篇。语料从携程网上自动采集,并经过整理而成。为了方便起见,语料被整理成4个子集: 1.ChnSentiCorp-Htl-ba-2000: 平衡语料,正负类各1000篇。 2.ChnSentiCorp-Htl-ba-4000: 平衡语料,正负类各2000篇。 3.ChnSentiCorp-Htl-ba-6000: 平衡语料,正负类各3000篇。 4.ChnSentiCorp-Htl-unba-10000: 非平衡语料,正类为7000篇。
2019-12-21 20:13:34 9.88MB 情感分析 酒店评论 语料库
1
网易新闻语料库 文本分类 自然语言处理 网上基本找不到哦~~
2019-12-21 20:12:04 37.74MB 网易新闻语料 文本分类 自然语言处理
1
原文件为zhwiki-latest-pages-articles.xml.bz2,大小为1.7G,最新时间为19年7月下载,转为txt文本,繁转简,分词,gensim训练后的model文件
2019-12-21 20:02:26 15.28MB Word2Vec 训练模型文件 zhwiki-latest-pa
1
说明:谭松波收集整理了一个较大规模的酒店评论语料语料规模为10000篇。语料从携程网上自动采集,并经过整理而成。为了方便起见,语料被整理成4个子集: 1. ChnSentiCorp-Htl-ba-2000: 平衡语料,正负类各1000篇。 2. ChnSentiCorp-Htl-ba-4000: 平衡语料,正负类各2000篇。 3. ChnSentiCorp-Htl-ba-6000: 平衡语料,正负类各3000篇。 4. ChnSentiCorp-Htl-unba-10000: 非平衡语料,正类为7000篇。
2019-12-21 19:58:27 6.28MB 中文情感分析 ChnSen
1
语料规模大,包括新闻文本、微博等各种语料。部分情感文本采用手工标注。只需下载压缩包并解压后即可使用。
2019-12-21 19:56:14 21.02MB 新闻文本 微博语料 情感分析 测评
1
自己用来训练word2vec的,已提取文本,做了分词处理,过滤了大部分的特殊字符。 共包含3273626个段落的文本(一个段落包含了多个语句)。 处理后的语料有1.1G,由于文件较大,提供百度网盘下载地址。
2019-12-21 19:54:45 300B 维基 中文语料 word2vec
1
人民日报语料库,适合机器学习训练使用,分词等。
2019-12-21 19:51:35 17.65MB 语料
1
格式为 [ { "url": "http://zhidao.baidu.com/question/565618371557484884.html", "question": "学文员有哪些专科学校", "tags": [ "学校", "专科", "院校信息" ] }, { "url": "http://zhidao.baidu.com/question/2079794100345438428.html", "question": "网赌和澳门赌有区别吗", "tags": [ "网络", "澳门", "赌博" ] } ]
2019-12-21 19:43:45 64B 百度 语料 自然语言处理 数据集
1