搜索【语料】的结果

中文语料停用词

中文语料的停用词txt文档，取自复旦大学中文语料库，文件很小

2020-01-10 03:06:08 3KB 停用词

1

中文情感分析语料数据酒店评论

这是覃建波老师的酒店评论数据集，是公认的情感分析语料数据，做中文自然语言处理情感分析所用。

2020-01-03 11:34:32 3.81MB 中文 情感分析 语料数据

1

分词_频数_词性@35万_结巴语料

分词_频数_词性@35万_结巴语料，分词_频数_词性@35万_结巴语料

2020-01-03 11:24:39 64B nlp 语料频数词性

1

网易文本分类数据 - 好东西

数据堂已经打不开了, 以前备份留下来的网易文本分类数据, dataid=602151

2020-01-03 11:19:20 37.74MB 数据 训练集 语料

1

NER语料集.zip

整合当前可以找到的NER语料集，并把格式统一化，可以直接训练。

2020-01-03 11:17:01 23.02MB NLP corpus 语料集

1

北京大学28288句分词语料

非常权威的北京大学分词语料可用于大规模的中文文本分词

2019-12-21 22:25:38 1.1MB 北京大学 分词语料

1

LSTM神经网络训练的PTB语料

NLP中常用的PTB语料库，全名Penn Treebank。 Penn Treebank是一个项目的名称，项目目的是对语料进行标注，标注内容包括词性标注以及句法分析。语料来源为：1989年华尔街日报语料规模：1M words，2499篇文章

2019-12-21 22:19:20 3.26MB PTB 华尔街语料库 神经网络训练

1

新浪微博，情感分析标记语料共12万条

本资源为自己人工标记的微博语料，分为消极pos.txt，积极neg.txt 各60000条，适用于机器学习情感分析，训练数据原数据

2019-12-21 22:14:25 8.39MB 情感分析 微博语料 机器学习 标记语料

1

爬虫工具，用于获取平行语料

通过爬得的网页来获取平行网页，java语言开发的，开源

2019-12-21 22:13:53 3.87MB 爬虫

1

维基百科中文语料word2vec训练后结果

中文维基百科语料库，将其转换为文本文件后，进行繁体字转换为简体字，字符集转换，分词，然后训练得到模型以及向量。由于文件上传的大小限制是60MB，而训练后的所有文件大小有1G以上，所以这里只提供了下载链接，地址在网盘中。使用python中的gensim包进行训练得到的，运行时间较长，纯粹的维基百科中文语料训练后的结果，拿去可以直接使用。

2019-12-21 22:09:03 234B wiki中文

1

个人信息

热门下载

最新下载

其他资源