网易新闻语料库 文本分类 自然语言处理 网上基本找不到哦~~
2019-12-21 20:12:04 37.74MB 网易新闻语料 文本分类 自然语言处理
1
原文件为zhwiki-latest-pages-articles.xml.bz2,大小为1.7G,最新时间为19年7月下载,转为txt文本,繁转简,分词,gensim训练后的model文件
2019-12-21 20:02:26 15.28MB Word2Vec 训练模型文件 zhwiki-latest-pa
1
说明:谭松波收集整理了一个较大规模的酒店评论语料语料规模为10000篇。语料从携程网上自动采集,并经过整理而成。为了方便起见,语料被整理成4个子集: 1. ChnSentiCorp-Htl-ba-2000: 平衡语料,正负类各1000篇。 2. ChnSentiCorp-Htl-ba-4000: 平衡语料,正负类各2000篇。 3. ChnSentiCorp-Htl-ba-6000: 平衡语料,正负类各3000篇。 4. ChnSentiCorp-Htl-unba-10000: 非平衡语料,正类为7000篇。
2019-12-21 19:58:27 6.28MB 中文情感分析 ChnSen
1
语料规模大,包括新闻文本、微博等各种语料。部分情感文本采用手工标注。只需下载压缩包并解压后即可使用。
2019-12-21 19:56:14 21.02MB 新闻文本 微博语料 情感分析 测评
1
自己用来训练word2vec的,已提取文本,做了分词处理,过滤了大部分的特殊字符。 共包含3273626个段落的文本(一个段落包含了多个语句)。 处理后的语料有1.1G,由于文件较大,提供百度网盘下载地址。
2019-12-21 19:54:45 300B 维基 中文语料 word2vec
1
人民日报语料库,适合机器学习训练使用,分词等。
2019-12-21 19:51:35 17.65MB 语料
1
格式为 [ { "url": "http://zhidao.baidu.com/question/565618371557484884.html", "question": "学文员有哪些专科学校", "tags": [ "学校", "专科", "院校信息" ] }, { "url": "http://zhidao.baidu.com/question/2079794100345438428.html", "question": "网赌和澳门赌有区别吗", "tags": [ "网络", "澳门", "赌博" ] } ]
2019-12-21 19:43:45 64B 百度 语料 自然语言处理 数据集
1
该资源主要参考我的博客:word2vec词向量训练及中文文本相似度计算 http://blog.csdn.net/eastmount/article/details/50637476 其中包括C语言的Word2vec源代码(从官网下载),自定义爬取的三大百科(百度百科、互动百科、维基百科)中文语料,涉及到国家、景区、动物和人物。 同时包括60M的腾讯新闻语料,是一个txt,每行相当于一个新闻。 国家包括了Python的Jieba分词代码,详见博客。 免费资源希望对你有所帮助~
2019-12-21 19:41:38 142.09MB word2vec 源码 中文预料 词向量
1
该文档为ccks2018(全国语义计算与知识图谱大会)自动问答评测任务的语料集,包含训练集开发集和测试集,该问答评测基于PKUbase知识库。
2019-12-21 19:41:08 149KB 问答系统 语料集 评测 ccks
1
已做预处理:分词、剔除停用词 可直接拿来统计建立文本模型
2019-12-21 19:39:47 6.88MB NLP Newsgroup 英文语料库 新闻组
1