来自维基百科中文版本的FASTQ文件格式介绍。由于维基百科被和谐了,特在此分享。
2021-03-22 17:05:40 877KB fastq 生物信息学 基因测序
1
维基百科中文语料库,是自然语言处理中常用的一个数据集,里面包含了大量的中文词条,本文件是2020年7月份最新的语料(3)
2021-03-01 21:10:32 265.99MB 维基百科 中文语料库 数据集
1
中央广播电视大学《建筑工程造价专科》期末总复习资料(含答案)
2021-03-01 16:05:27 415KB 维基百科
网址:http://en.wikipedia.org/wiki/Wikipedia 数据获得描述: 1.获取主页的内容,分析网页内容并找到主页上所有的本站链接
2021-02-05 12:00:08 768B 维基百科
1
数据来源于中文维基百科,利用gensim进行数据抽取,再经过繁体字转换成简体字,得到纯净的文本语料,可用于词向量训练。
2020-01-14 03:01:42 146.03MB 维基语料 词向量语料
1
将wiki上article数据进行下载,通过维基百科抽取工具将xml格式解析成txt格式,然后使用opencc将繁体转化为简体。在抽取时将文档分了段,因此只上传了部分文档
2020-01-03 11:31:04 67.35MB wiki 维基百科 简体数据 gensim
1
中文维基百科语料库,将其转换为文本文件后,进行繁体字转换为简体字,字符集转换,分词,然后训练得到模型以及向量。由于文件上传的大小限制是60MB,而训练后的所有文件大小有1G以上,所以这里只提供了下载链接,地址在网盘中。使用python中的gensim包进行训练得到的,运行时间较长,纯粹的维基百科中文语料训练后的结果,拿去可以直接使用。
2019-12-21 22:09:03 234B wiki中文
1
这是最新的中文维基百科语料库(截至2019年2月20日),可以用来训练word2vec词向量,做文本分类,官网特别难下载,因此分享出来
1
自己用来训练word2vec的,已提取文本,做了分词处理,过滤了大部分的特殊字符。 共包含3273626个段落的文本(一个段落包含了多个语句)。 处理后的语料有1.1G,由于文件较大,提供百度网盘下载地址。
2019-12-21 20:19:24 650B 维基 中文语料 word2vec
1
不叫不错的一个开源百科系统,最近开发百科系统,找到的,挺不错,功能挺丰富的,分享一下
2019-12-21 20:09:27 2.32MB .net 百科
1