本资源是维基百科中文网页的语料库(包含处理过的与未处理的),版本为2020-8-3版本,可适用于中文语料处理等训练集。由于文件过大,放在的百度网盘中,如果网盘被和谐或者其他原因造成的无法打开,请评论留言,本人看到后立即更改。 文件中包含的内容有:未经处理的维基百科语料库、使用代码处理繁体转简体并jieba分词后的语料库、繁体转简体的代码,读者可根据自己的需要进行相应的提取。
2021-04-07 18:38:27 769B python NLP 维基百科中文语料库
1
文件中包含百度网盘链接和密码
1
百度网盘链接和密码在文件中
1
大学生《儿科学》期末复习考试试题总结
2021-03-31 09:08:19 402KB 维基百科
维基百科关于16S RNA的中文解释,因维基百科被和谐,在此分享。
2021-03-29 18:08:13 1.32MB 核糖体 16SRNA 维基百科 生物医学
1
来自维基百科中文版本的FASTA文件格式介绍。由于维基百科被和谐了,特在此分享。
2021-03-27 20:08:07 1.32MB fasta 基因测序 生物信息学 生物学
1
来自维基百科中文版本的FASTQ文件格式介绍。由于维基百科被和谐了,特在此分享。
2021-03-22 17:05:40 877KB fastq 生物信息学 基因测序
1
自然语言处理系列:中文维基语料词向量训练PPT
2021-03-22 15:13:19 162KB 自然语言处理
1
维基百科中文语料库,是自然语言处理中常用的一个数据集,里面包含了大量的中文词条,本文件是2020年7月份最新的语料(3)
2021-03-01 21:10:32 265.99MB 维基百科 中文语料库 数据集
1
中央广播电视大学《建筑工程造价专科》期末总复习资料(含答案)
2021-03-01 16:05:27 415KB 维基百科