中文语料的停用词txt文档,取自复旦大学中文语料库,文件很小
2020-01-10 03:06:08 3KB 停用词
1
这是覃建波老师的酒店评论数据集,是公认的情感分析语料数据,做中文自然语言处理情感分析所用。
2020-01-03 11:34:32 3.81MB 中文 情感分析 语料数据
1
分词_频数_词性@35万_结巴语料,分词_频数_词性@35万_结巴语料
2020-01-03 11:24:39 64B nlp 语料 频数 词性
1
数据堂已经打不开了, 以前备份留下来的网易文本分类数据, dataid=602151
2020-01-03 11:19:20 37.74MB 数据 训练集 语料
1
整合当前可以找到的NER语料集,并把格式统一化,可以直接训练。
2020-01-03 11:17:01 23.02MB NLP corpus 语料集
1
非常权威的北京大学分词语料 可用于大规模的中文文本分词
2019-12-21 22:25:38 1.1MB 北京大学 分词 语料
1
NLP中常用的PTB语料库,全名Penn Treebank。 Penn Treebank是一个项目的名称,项目目的是对语料进行标注,标注内容包括词性标注以及句法分析。 语料来源为:1989年华尔街日报 语料规模:1M words,2499篇文章
2019-12-21 22:19:20 3.26MB PTB 华尔街语料库 神经网络训练
1
本资源为自己人工标记的微博语料,分为消极pos.txt,积极neg.txt 各60000条,适用于机器学习情感分析,训练数据原数据
2019-12-21 22:14:25 8.39MB 情感分析 微博语料 机器学习 标记语料
1
通过爬得的网页来获取平行网页,java语言开发的,开源
2019-12-21 22:13:53 3.87MB 爬虫
1
中文维基百科语料库,将其转换为文本文件后,进行繁体字转换为简体字,字符集转换,分词,然后训练得到模型以及向量。由于文件上传的大小限制是60MB,而训练后的所有文件大小有1G以上,所以这里只提供了下载链接,地址在网盘中。使用python中的gensim包进行训练得到的,运行时间较长,纯粹的维基百科中文语料训练后的结果,拿去可以直接使用。
2019-12-21 22:09:03 234B wiki中文
1