网址:http://en.wikipedia.org/wiki/Wikipedia 数据获得描述: 1.获取主页的内容,分析网页内容并找到主页上所有的本站链接
2021-02-05 12:00:08 768B 维基百科
1
发布于2013-5-10Web2.0这一概念,由O'Reilly媒体公司总裁兼CEO提姆·奥莱理提出。他是美国IT业界公认的传奇式人物,是“开放源码”概念的缔造者,一直倡导开放标准,并活跃在开放源码运动的最前沿。在Web2.0革命中,维基(Wiki)的起源比博客还要早。博客是自己一个人编写维护,每天更新博客会让你思维枯竭,维基技术和支持它的网页就能够让大家群策群力一起交流共同爱好。维基对所有人包括浏览Wiki页面的人都是全开放的。也就是说,每个人都可以任意创建、修改和删除网站上的页面内容。维基和博客相比更加具有团队精神。通常我们将Wiki翻译为“维基”,到底何为Wiki?Wiki一词来源于夏威
2021-02-03 09:38:40 457KB Linux环境下快速搭建维基网站
1
维基中文语料库(非最新)(两部分此为Part1) zhwiki-latest-pages-articles.xml.bz2_.part1 | Part2不需要积分, Part2链接:https://download.csdn.net/download/Joker_Q/14967774
1
维基中文语料库(非最新)(两部分此为Part2) zhwiki-latest-pages-articles.xml.bz2_.part2 | 原压缩包太大需要分两次上传,part1链接:https://download.csdn.net/download/Joker_Q/14967708
2021-01-30 23:09:59 676.04MB 维基中文语料库 中文语料库 语料库 zhwiki
1
数据来源于中文维基百科,利用gensim进行数据抽取,再经过繁体字转换成简体字,得到纯净的文本语料,可用于词向量训练。
2020-01-14 03:01:42 146.03MB 维基语料 词向量语料
1
将wiki上article数据进行下载,通过维基百科抽取工具将xml格式解析成txt格式,然后使用opencc将繁体转化为简体。在抽取时将文档分了段,因此只上传了部分文档
2020-01-03 11:31:04 67.35MB wiki 维基百科 简体数据 gensim
1
支持国产开源软件。互动维客开源系统(HDwiki)作为中国第一家拥有自主知识产权的中文维基(Wiki)系统,由互动在线(北京)科技有限公司于2006 年11月28日正式推出,力争为给国内外众多的维基(Wiki)爱好者提供一个免费、易用、功能强大的维基(Wiki)建站系统。HDwiki的推出,填补了中文维基(Wiki)的空白。
2020-01-03 11:29:15 2.71MB wiki 中文维基 开源
1
中文维基百科语料库,将其转换为文本文件后,进行繁体字转换为简体字,字符集转换,分词,然后训练得到模型以及向量。由于文件上传的大小限制是60MB,而训练后的所有文件大小有1G以上,所以这里只提供了下载链接,地址在网盘中。使用python中的gensim包进行训练得到的,运行时间较长,纯粹的维基百科中文语料训练后的结果,拿去可以直接使用。
2019-12-21 22:09:03 234B wiki中文
1
这是最新的中文维基百科语料库(截至2019年2月20日),可以用来训练word2vec词向量,做文本分类,官网特别难下载,因此分享出来
1
自己用来训练word2vec的,已提取文本,做了分词处理,过滤了大部分的特殊字符。 共包含3273626个段落的文本(一个段落包含了多个语句)。 处理后的语料有1.1G,由于文件较大,提供百度网盘下载地址。
2019-12-21 20:19:24 650B 维基 中文语料 word2vec
1