1998年1月-6月人民日报语料库,已做词性标记,适用于自然语言处理序列标注等任务,如命名实体识别等,里面包含6个月份
2019-12-21 18:58:10 11.5MB 文本分类语料
1
aiml,中文语料库,从别的地方收集的,提供大家学习用
2019-12-21 18:57:48 1.48MB aiml 语料库 中文语料库
1
# 语料库说明 ------------------------------------------------------------------------ ## 词典 1、HowNet 情感词典 2、ntusd 情感词典 3、情感分析停用词表 4、结巴分词自定义词典 5、常用语词典,包括流行新词,网络流行词,手机词汇,粤语,潮语潮词、阿里巴巴-通讯产品词汇等 ## 手机评论数据 1、HTC手机评论,包括打分,共302篇1-5 2、魅族手机评论,包括打分,共529篇1-5 3、诺基亚手机评论,包括打分,共614篇1-5 4、OPPO手机评论,包括打分1-5,共553篇 5、三星手机评论,包括打分1-5,共762篇 6、中兴手机评论,包括打分1-5,共785篇 7、摩托罗拉手机评论,包括打分1-5,共990篇 8、整合:正面评论1084篇,负面评论524篇 ## 淘宝商品评论数据 1、正面评论一万篇,负面评论一万篇 2、待预测的语料一万篇 ## 2012微博情感分析数据 共三个任务,数据集来自腾讯微博,每个话题1,000条,总约两万条微博 1、观点句与非观点句的判别 2、情感分类 3、情感要素抽取 ## 谭松波酒店评论语料 正负样本不平衡,正样本7,000,负样本3000,共10,000. ## 酒店、服装、水果、平板、洗发水 正负样本均5,000,总样本数50,000
2019-12-21 18:57:42 12.81MB 中文语料 情感分析 数据集
1
为了弥补国内在中文情感挖掘方面的语料的匮乏,谭松波收集整理了一个较大规模的酒店评论语料语料规模为10000篇。语料从携程网上自动采集,并经过整理而成。为了方便起见,语料被整理成4个子集: 1.ChnSentiCorp-Htl-ba-2000: 平衡语料,正负类各1000篇。 2.ChnSentiCorp-Htl-ba-4000: 平衡语料,正负类各2000篇。 3.ChnSentiCorp-Htl-ba-6000: 平衡语料,正负类各3000篇。 4.ChnSentiCorp-Htl-unba-10000: 非平衡语料,正类为7000篇。
2019-12-21 18:55:54 3.81MB 酒店评价语料
1
文件为JSON格式数据,很容易解析,包括歌词、歌名、歌手等信息,包括各种风格的歌曲,大约1万8千首左右(未去重)。可以用作歌词生成模型训练、中文歌词向量模型训练等。
2019-12-21 18:54:24 10.81MB 中文;歌词;
1
微博褒贬语料已标注,可以下载下来直接跑程序,褒贬都已经标注好了。
2019-12-21 18:54:00 8.38MB 微博语料 褒贬 已标注
1
这是本人自己爬取的今日头条新闻数据。包括了6个类别:军事,体育,娱乐,时尚,汽车,游戏。每个类别有2000左右的数据。包含有新闻的题目,正文。还有一些类别中包含了新闻的发布时间,新闻来源等信息。
2019-12-21 18:53:45 16.56MB 中文新闻 语料库
1
2018最新最全nlp中文问答语料对,包括常规问答,笑话等
2019-12-21 18:53:03 23.33MB NLP 语料对 中文聊天语料
1
包含背景知识和问答的问答系统训练的中文语料,数据规范,问答包含正确和错误标签。
2019-12-21 18:52:52 2.13MB 数据 问答系统 知识图谱
1
法律类句子对齐语料,是跨语言信息技术的实用好资源
2019-12-21 18:51:57 11.78MB 平行语料
1