资料包里面含有完整版的复旦大学语料库,外加上本人针对这个语料库而收集整理的分词表,还包括本人精选10类各100篇,以及对其进行分词后的文件,以及只筛选名词后的文件
2019-12-21 18:57:19 105.44MB 复旦 完整版 语料库 停用词
1
包含2015年一整年的新闻,文件以txt形式存储,是从各大网站上爬取下来的。希望喜欢
2019-12-21 18:55:57 18.09MB 新闻 语料库 分类算法 SVM
1
为了弥补国内在中文情感挖掘方面的语料的匮乏,谭松波收集整理了一个较大规模的酒店评论语料。语料规模为10000篇。语料从携程网上自动采集,并经过整理而成。为了方便起见,语料被整理成4个子集: 1.ChnSentiCorp-Htl-ba-2000: 平衡语料,正负类各1000篇。 2.ChnSentiCorp-Htl-ba-4000: 平衡语料,正负类各2000篇。 3.ChnSentiCorp-Htl-ba-6000: 平衡语料,正负类各3000篇。 4.ChnSentiCorp-Htl-unba-10000: 非平衡语料,正类为7000篇。
2019-12-21 18:55:54 3.81MB 酒店评价语料
1
香港城市大学语料库(1 772 202 字,训练集)、微软亚洲研究院语料库(1 089 050 字,训练集)、北京大学语料库(1 833 177 字,训练集)
2019-12-21 18:55:23 41.84MB 分词语料库
1
中文情感分析语料库,包含 酒店、服装、水果、平板、洗发水 等 5 个领域的评价数据,每个领域各包含 5000 条正面和负面评价,数据抓取于 携程网 和 京东 ,仅供科研学习之用,欢迎下载使用!
2019-12-21 18:55:23 2.21MB 语料库
1
平行语料库,用于机器翻译等大数据处理,有需要的可以下来用,可以直接用,不用全角半角变换
2019-12-21 18:55:15 859KB 语料库
1
该评论语料库采集自京东商城,包含电脑评论、手机评论、图书评论、服装评论等19个不同种类的消费者评论,共有58万条评论记录。数据文件中每条评论记录占一行,每条评论句后面给出类别标注,分隔符为"\t"。该语料库是研究评论文本较好的训练数据集。
2019-12-21 18:55:08 41.27MB 评论语料库
1
语料库,自己整理的,对txt文件进行去停用词、分词。(停用词是指对文本含义几乎没有影响的词,这些词存入到.txt,分词调用的结巴分词库)
2019-12-21 18:53:51 40.58MB 词料库
1
用于HMM中文分词训练,代码可以参见:https://blog.csdn.net/qq_38593211/article/details/81637029
2019-12-21 18:53:49 16.62MB NLP NER
1
这是本人自己爬取的今日头条新闻数据。包括了6个类别:军事,体育,娱乐,时尚,汽车,游戏。每个类别有2000左右的数据。包含有新闻的题目,正文。还有一些类别中包含了新闻的发布时间,新闻来源等信息。
2019-12-21 18:53:45 16.56MB 中文新闻 语料库
1