zhwiki-gensim-word2vec The goal of this assignment is to train a Word2Vec using gensim over zhwiki() data and show the result by TSNE. 用Wikipedia的中文数据训练Word2Vec 1 下载数据() 2 解压数据 WikiExtractor 3 数据准备 a. jieba切词 b. 数据清洗、去停用词 c. 繁体化简体 OpenCC 4 用gensim 训练 Word2Vec 5 结果显示 TSNE
2023-02-04 23:32:08 1.02MB JupyterNotebook
1
维基百科中文语料库,是自然语言处理中常用的一个数据集,里面包含了大量的中文词条,本文件是2020年7月份最新的语料(2)。
2021-12-09 16:40:56 202.99MB 维基百科 中文语料库 数据集
1
维基百科中文语料库,是自然语言处理中常用的一个数据集,里面包含了大量的中文词条,本文件是2020年7月份最新的语料(5)
2021-04-14 21:28:00 58.25MB 维基百科 中文语料库 数据集
1
最新维基百科中文语料库
2021-04-05 18:13:09 192.41MB 资料
1
维基百科中文语料库,是自然语言处理中常用的一个数据集,里面包含了大量的中文词条,本文件是2020年7月份最新的语料(3)
2021-03-01 21:10:32 265.99MB 维基百科 中文语料库 数据集
1
维基中文语料库(非最新)(两部分此为Part1) zhwiki-latest-pages-articles.xml.bz2_.part1 | Part2不需要积分, Part2链接:https://download.csdn.net/download/Joker_Q/14967774
1
维基中文语料库(非最新)(两部分此为Part2) zhwiki-latest-pages-articles.xml.bz2_.part2 | 原压缩包太大需要分两次上传,part1链接:https://download.csdn.net/download/Joker_Q/14967708
2021-01-30 23:09:59 676.04MB 维基中文语料库 中文语料库 语料库 zhwiki
1
将wiki上article数据进行下载,通过维基百科抽取工具将xml格式解析成txt格式,然后使用opencc将繁体转化为简体。在抽取时将文档分了段,因此只上传了部分文档
2020-01-03 11:31:04 67.35MB wiki 维基百科 简体数据 gensim
1
原文件为zhwiki-latest-pages-articles.xml.bz2,大小为1.7G,最新时间为19年7月下载,转为txt文本,繁转简,分词,gensim训练后的model文件
2019-12-21 20:02:26 15.28MB Word2Vec 训练模型文件 zhwiki-latest-pa
1