语料库由复旦大学李荣陆提供。训练语料和测试语料两个预料各分为20个相同类别。训练语料和测试语料基本按照1:1的比例来划分。使用时尽量注明来源(复旦大学计算机信息与技术系国际数据库中心自然语言处理小组)
2019-12-21 18:51:02 111.24MB 文本分类
1
共50.38MB。本语料库由复旦大学李荣陆提供。test_corpus.rar为测试语料,共9833篇文档;train_corpus.rar为训练语料,共9804篇文档,两个预料各分为20个相同类别。训练语料和测试语料基本按照1:1的比例来划分。使用时尽量注明来源(复旦大学计算机信息与技术系国际数据库中心自然语言处理小组)
2019-12-21 18:49:48 51.14MB 文本分类 语料 测试集
1
从百度百科词条知识库中爬取下来的百万条百科知识,可用于自然语言处理、QA问答、知识图谱、实体识别、关系抽取等技术研究
2019-12-21 18:48:09 49.58MB 百度百科 语料库 结构化数据 关系型
1
这是关于微博情感分析的语料,类别分好,可以直接投入分析程序中使用,方便大家研究情感分类,免去大家写爬虫或API等方式爬取数据的烦恼
2018-04-25 14:44:06 27.15MB 情感分析 微博
1
这个链接是测试集,训练集请见我的资源 本语料库由复旦大学李荣陆提供。test_corpus.rar为测试语料,共9833篇文档;train_corpus.rar为训练语料,共9804篇文档,两个预料各分为20个相同类别。训练语料和测试语料基本按照1:1的比例来划分。使用时尽量注明来源(复旦大学计算机信息与技术系国际数据库中心自然语言处理小组)。文件较大(训练测试各50多兆),下载时请耐心等待。
2017-02-06 00:00:00 51.14MB 中文文本分类 文本分类语料
1
这个链接是训练集,测试集请见我的资源 本语料库由复旦大学李荣陆提供。test_corpus.rar为测试语料,共9833篇文档;train_corpus.rar为训练语料,共9804篇文档,两个预料各分为20个相同类别。训练语料和测试语料基本按照1:1的比例来划分。使用时尽量注明来源(复旦大学计算机信息与技术系国际数据库中心自然语言处理小组)。文件较大(训练测试各50多兆),下载时请耐心等待。
2017-02-06 00:00:00 50.38MB 中文文本分类 文本分类语料
1
JGibbLDA是LDA的Java实现库。
2015-12-03 00:00:00 838KB LDA gibbs JGibbLDA
1
用与crf分词,标注训练语料。 nlpcc2015任务一的数据
2015-09-16 00:00:00 10.17MB 分词标注语料
1