维基百科中文语料库,是自然语言处理中常用的一个数据集,里面包含了大量的中文词条,本文件是2020年7月份最新的语料(2)。
2021-12-09 16:40:56 202.99MB 维基百科 中文语料库 数据集
1
维基百科中文语料库,是自然语言处理中常用的一个数据集,里面包含了大量的中文词条,本文件是2020年7月份最新的语料(5)
2021-04-14 21:28:00 58.25MB 维基百科 中文语料库 数据集
1
本资源是维基百科中文网页的语料库(包含处理过的与未处理的),版本为2020-8-3版本,可适用于中文语料处理等训练集。由于文件过大,放在的百度网盘中,如果网盘被和谐或者其他原因造成的无法打开,请评论留言,本人看到后立即更改。 文件中包含的内容有:未经处理的维基百科语料库、使用代码处理繁体转简体并jieba分词后的语料库、繁体转简体的代码,读者可根据自己的需要进行相应的提取。
2021-04-07 18:38:27 769B python NLP 维基百科中文语料库
1
维基百科中文语料库,是自然语言处理中常用的一个数据集,里面包含了大量的中文词条,本文件是2020年7月份最新的语料(3)
2021-03-01 21:10:32 265.99MB 维基百科 中文语料库 数据集
1