我搜索了很多,发现关于维基百科物料的下载方式都很慢,努力了很久终于有所收获,和大家分享。有两个内容,一个为json接口版本,一个为已分词版本
2021-05-05 15:10:59 238B 维基百科 中文物料
1
自己用来训练word2vec的,已提取文本,做了分词处理,过滤了大部分的特殊字符。 共包含3273626个段落的文本(一个段落包含了多个语句)。 处理后的语料有1.1G,由于文件较大,提供百度网盘下载地址。
2021-04-26 22:45:04 650B 维基 中文语料 word2vec
1
基于中文维基百科的词向量构建及可视化-附件资源
2021-04-17 13:38:47 106B
1
维基百科中文语料库,是自然语言处理中常用的一个数据集,里面包含了大量的中文词条,本文件是2020年7月份最新的语料(5)
2021-04-14 21:28:00 58.25MB 维基百科 中文语料库 数据集
1
本资源是维基百科中文网页的语料库(包含处理过的与未处理的),版本为2020-8-3版本,可适用于中文语料处理等训练集。由于文件过大,放在的百度网盘中,如果网盘被和谐或者其他原因造成的无法打开,请评论留言,本人看到后立即更改。 文件中包含的内容有:未经处理的维基百科语料库、使用代码处理繁体转简体并jieba分词后的语料库、繁体转简体的代码,读者可根据自己的需要进行相应的提取。
2021-04-07 18:38:27 769B python NLP 维基百科中文语料库
1
文件中包含百度网盘链接和密码
1
百度网盘链接和密码在文件中
1
大学生《儿科学》期末复习考试试题总结
2021-03-31 09:08:19 402KB 维基百科
维基百科关于16S RNA的中文解释,因维基百科被和谐,在此分享。
2021-03-29 18:08:13 1.32MB 核糖体 16SRNA 维基百科 生物医学
1
来自维基百科中文版本的FASTA文件格式介绍。由于维基百科被和谐了,特在此分享。
2021-03-27 20:08:07 1.32MB fasta 基因测序 生物信息学 生物学
1