为了弥补国内在中文情感挖掘方面的语料的匮乏,谭松波收集整理了一个较大规模的酒店评论语料语料规模为10000篇。语料从携程网上自动采集,并经过整理而成。为了方便起见,语料被整理成4个子集: 1.ChnSentiCorp-Htl-ba-2000: 平衡语料,正负类各1000篇。 2.ChnSentiCorp-Htl-ba-4000: 平衡语料,正负类各2000篇。 3.ChnSentiCorp-Htl-ba-6000: 平衡语料,正负类各3000篇。 4.ChnSentiCorp-Htl-unba-10000: 非平衡语料,正类为7000篇。
2019-12-21 18:55:54 3.81MB 酒店评价语料
1
文件为JSON格式数据,很容易解析,包括歌词、歌名、歌手等信息,包括各种风格的歌曲,大约1万8千首左右(未去重)。可以用作歌词生成模型训练、中文歌词向量模型训练等。
2019-12-21 18:54:24 10.81MB 中文;歌词;
1
微博褒贬语料已标注,可以下载下来直接跑程序,褒贬都已经标注好了。
2019-12-21 18:54:00 8.38MB 微博语料 褒贬 已标注
1
这是本人自己爬取的今日头条新闻数据。包括了6个类别:军事,体育,娱乐,时尚,汽车,游戏。每个类别有2000左右的数据。包含有新闻的题目,正文。还有一些类别中包含了新闻的发布时间,新闻来源等信息。
2019-12-21 18:53:45 16.56MB 中文新闻 语料库
1
2018最新最全nlp中文问答语料对,包括常规问答,笑话等
2019-12-21 18:53:03 23.33MB NLP 语料对 中文聊天语料
1
包含背景知识和问答的问答系统训练的中文语料,数据规范,问答包含正确和错误标签。
2019-12-21 18:52:52 2.13MB 数据 问答系统 知识图谱
1
法律类句子对齐语料,是跨语言信息技术的实用好资源
2019-12-21 18:51:57 11.78MB 平行语料
1
语料库由复旦大学李荣陆提供。训练语料和测试语料两个预料各分为20个相同类别。训练语料和测试语料基本按照1:1的比例来划分。使用时尽量注明来源(复旦大学计算机信息与技术系国际数据库中心自然语言处理小组)
2019-12-21 18:51:02 111.24MB 文本分类
1
共50.38MB。本语料库由复旦大学李荣陆提供。test_corpus.rar为测试语料,共9833篇文档;train_corpus.rar为训练语料,共9804篇文档,两个预料各分为20个相同类别。训练语料和测试语料基本按照1:1的比例来划分。使用时尽量注明来源(复旦大学计算机信息与技术系国际数据库中心自然语言处理小组)
2019-12-21 18:49:48 51.14MB 文本分类 语料 测试集
1
从百度百科词条知识库中爬取下来的百万条百科知识,可用于自然语言处理、QA问答、知识图谱、实体识别、关系抽取等技术研究
2019-12-21 18:48:09 49.58MB 百度百科 语料库 结构化数据 关系型
1