搜索【语料】的结果

1998年1月-6月人民日报语料库

1998年1月-6月人民日报语料库，已做词性标记，适用于自然语言处理序列标注等任务，如命名实体识别等，里面包含6个月份

2019-12-21 18:58:10 11.5MB 文本分类语料

1

aiml中文语料

aiml，中文语料库，从别的地方收集的，提供大家学习用

2019-12-21 18:57:48 1.48MB aiml 语料库 中文语料库

1

中文情感分析语料整理

# 语料库说明 ------------------------------------------------------------------------ ## 词典 1、HowNet 情感词典 2、ntusd 情感词典 3、情感分析停用词表 4、结巴分词自定义词典 5、常用语词典，包括流行新词，网络流行词，手机词汇，粤语，潮语潮词、阿里巴巴-通讯产品词汇等 ## 手机评论数据 1、HTC手机评论，包括打分，共302篇1-5 2、魅族手机评论，包括打分，共529篇1-5 3、诺基亚手机评论，包括打分，共614篇1-5 4、OPPO手机评论，包括打分1-5，共553篇 5、三星手机评论，包括打分1-5，共762篇 6、中兴手机评论，包括打分1-5，共785篇 7、摩托罗拉手机评论，包括打分1-5，共990篇 8、整合：正面评论1084篇，负面评论524篇 ## 淘宝商品评论数据 1、正面评论一万篇，负面评论一万篇 2、待预测的语料一万篇 ## 2012微博情感分析数据共三个任务，数据集来自腾讯微博，每个话题1,000条，总约两万条微博 1、观点句与非观点句的判别 2、情感分类 3、情感要素抽取 ## 谭松波酒店评论语料正负样本不平衡，正样本7,000，负样本3000，共10,000. ## 酒店、服装、水果、平板、洗发水正负样本均5,000，总样本数50,000

2019-12-21 18:57:42 12.81MB 中文语料 情感分析 数据集

1

酒店评价语料库

为了弥补国内在中文情感挖掘方面的语料的匮乏，谭松波收集整理了一个较大规模的酒店评论语料。语料规模为10000篇。语料从携程网上自动采集，并经过整理而成。为了方便起见，语料被整理成4个子集: 1.ChnSentiCorp-Htl-ba-2000: 平衡语料，正负类各1000篇。 2.ChnSentiCorp-Htl-ba-4000: 平衡语料，正负类各2000篇。 3.ChnSentiCorp-Htl-ba-6000: 平衡语料，正负类各3000篇。 4.ChnSentiCorp-Htl-unba-10000: 非平衡语料，正类为7000篇。

2019-12-21 18:55:54 3.81MB 酒店评价语料

1

中文歌词语料（JOSN格式）

文件为JSON格式数据，很容易解析，包括歌词、歌名、歌手等信息，包括各种风格的歌曲，大约1万8千首左右（未去重）。可以用作歌词生成模型训练、中文歌词向量模型训练等。

2019-12-21 18:54:24 10.81MB 中文;歌词;

1

微博褒贬语料已标注

微博褒贬语料已标注，可以下载下来直接跑程序，褒贬都已经标注好了。

2019-12-21 18:54:00 8.38MB 微博语料 褒贬 已标注

1

中文新闻数据语料

这是本人自己爬取的今日头条新闻数据。包括了6个类别：军事，体育，娱乐，时尚，汽车，游戏。每个类别有2000左右的数据。包含有新闻的题目，正文。还有一些类别中包含了新闻的发布时间，新闻来源等信息。

2019-12-21 18:53:45 16.56MB 中文新闻 语料库

1

最新最全nlp中文问答语料对

2018最新最全nlp中文问答语料对，包括常规问答，笑话等

2019-12-21 18:53:03 23.33MB NLP 语料对 中文聊天语料

1

包含背景知识和问答的问答系统训练语料

包含背景知识和问答的问答系统训练的中文语料，数据规范，问答包含正确和错误标签。

2019-12-21 18:52:52 2.13MB 数据 问答系统 知识图谱

1

22万句对法律类句子对齐语料

法律类句子对齐语料，是跨语言信息技术的实用好资源

2019-12-21 18:51:57 11.78MB 平行语料

1

个人信息

热门下载

最新下载

其他资源