自己用来训练word2vec的,已提取文本,做了分词处理,过滤了大部分的特殊字符。 共包含3273626个段落的文本(一个段落包含了多个语句)。 处理后的语料有1.1G,由于文件较大,提供百度网盘下载地址。
2019-12-21 19:54:45 300B 维基 中文语料 word2vec
1
本文主要是参看我的博客http://blog.csdn.net/eastmount/article/details/44342559 [python学习] 简单爬取维基百科程序语言消息盒,主要讲述Python爬取维基百科的方法,主要是提供一种方法和思想,希望对大家有所帮助。 建议同博客一起阅读,否则可能感觉有些模糊。免费资源分享给大家学习。
2019-12-21 18:49:23 841KB python 维基百科 爬虫 infobox
1