中文维基百科hosts文件,拷贝到C:\Windows\System32\drivers\etc目录下,经测试可使用
2022-03-08 15:18:15 465B hosts
1
WikiExtractor.py 中文维基语料训练获取工具之一
1
px4的官方百科,中文的,能够对px4有个完整的认识,并且在px4的资源支持上有较好的指导意义。
2021-09-01 15:45:47 33.13MB px4 中文 wiki
1
基于中文维基百科的词向量构建及可视化-附件资源
2021-04-17 13:38:47 106B
1
本资源是维基百科中文网页的语料库(包含处理过的与未处理的),版本为2020-8-3版本,可适用于中文语料处理等训练集。由于文件过大,放在的百度网盘中,如果网盘被和谐或者其他原因造成的无法打开,请评论留言,本人看到后立即更改。 文件中包含的内容有:未经处理的维基百科语料库、使用代码处理繁体转简体并jieba分词后的语料库、繁体转简体的代码,读者可根据自己的需要进行相应的提取。
2021-04-07 18:38:27 769B python NLP 维基百科中文语料库
1
自然语言处理系列:中文维基语料词向量训练PPT
2021-03-22 15:13:19 162KB 自然语言处理
1
数据来源于中文维基百科,利用gensim进行数据抽取,再经过繁体字转换成简体字,得到纯净的文本语料,可用于词向量训练。
2020-01-14 03:01:42 146.03MB 维基语料 词向量语料
1
支持国产开源软件。互动维客开源系统(HDwiki)作为中国第一家拥有自主知识产权的中文维基(Wiki)系统,由互动在线(北京)科技有限公司于2006 年11月28日正式推出,力争为给国内外众多的维基(Wiki)爱好者提供一个免费、易用、功能强大的维基(Wiki)建站系统。HDwiki的推出,填补了中文维基(Wiki)的空白。
2020-01-03 11:29:15 2.71MB wiki 中文维基 开源
1
这是最新的中文维基百科语料库(截至2019年2月20日),可以用来训练word2vec词向量,做文本分类,官网特别难下载,因此分享出来
1
原文件为zhwiki-latest-pages-articles.xml.bz2,大小为1.7G,最新时间为19年7月下载,转为txt文本,繁转简,分词,gensim训练后的model文件
2019-12-21 20:02:26 15.28MB Word2Vec 训练模型文件 zhwiki-latest-pa
1