机器学习算法中自然语言处理常用数据集(新闻数据集news.csv)及jieba_dict字典、停用词等相关文件,包括以下文件 data/news.csv jieba_dict/dict.txt.big jieba_dict/stopwords.txt jieba_dict/stopwords_s.txt
2021-07-19 15:41:33 3.94MB 新闻数据集 自然语言处理数据集
1
这是从Qangaroo官方网站下载的。官网只公开训练集和测试集,验证集不公开。
2021-05-25 18:35:10 84.34MB 自然语言处理数据集
1
NLPCC2016-DBQA 是由国际自然语言处理和中文计算会议 NLPCC 于 2016 年举办的评测任务,其目标是从候选中找到合适的文档作为问题的答案
2021-04-09 13:07:01 14.78MB 问答系统 nlp 自然语言处理 数据集
提供高中数学学科的知识数据集,包含2232个样本和2399个实体,提供了基于该数据集的实体关系数据库(一共12种关系,11250个实体关系对)。该数据集可用于基于高中数学学科的知识图谱的构建,包含命名实体识别、实体关系抽取、文本分类等任务。
1
现代汉语词典一个字一个词一一对应可能会有编码问题使用文本工具打开复制黏贴到 utf-8文档中即可转码成功
2021-01-28 22:23:06 2.04MB 自然语言处理数据集
提供高中数学学科的知识数据集,包含6661个样本和706个实体,提供了基于该数据集的实体关系数据库(一共12种关系,11250个实体关系对)。该数据集可用于基于高中数学学科的知识图谱的构建,包含命名实体识别、实体关系抽取、文本分类等任务。
1
格式为 [ { "url": "http://zhidao.baidu.com/question/565618371557484884.html", "question": "学文员有哪些专科学校", "tags": [ "学校", "专科", "院校信息" ] }, { "url": "http://zhidao.baidu.com/question/2079794100345438428.html", "question": "网赌和澳门赌有区别吗", "tags": [ "网络", "澳门", "赌博" ] } ]
2019-12-21 19:43:45 64B 百度 语料 自然语言处理 数据集
1