维基百科词向量 sgns.wiki.char.bz2解压后文件后缀名是.char, 可以通过一些方法得到.txt结尾的文件,有35万多个字词和符号,300维的向量表示。将词向量作为词嵌入层时需要加载全部的词向量到内存,如果计算机的内存不够大,会直接内存溢出。所以,截取8000,20000个词汇的词向量进行使用,在配置普遍的设备也能运行。该项目提供了100多个使用不同表示(密集和稀疏),上下文特征(单词,ngram,字符等)和语料库训练的中文单词向量(嵌入)。人们可以很容易地获得具有不同属性的预训练向量,并将它们用于下游任务。
1
中文维基百科hosts文件,拷贝到C:\Windows\System32\drivers\etc目录下,经测试可使用
2022-03-08 15:18:15 465B hosts
1
拖网渔船 在 Wikipedia 上搜索 UCI ProTour 自行车手统计数据(身高、体重、国家/地区、年龄)以计算平均值。 用法 重建数据库 要重建数据库,只需运行python ProTrawler.py 。 这会将data.js输出到当前工作目录。 重建网络应用程序 如上所述重建数据库,然后将data.js移动到web/app/scripts/data/ 。 在web/目录中使用npm install和bower install安装/更新 Javascript 依赖项。 运行grunt build ,构建的 Web 应用程序将在dist/ 。
2022-02-18 17:49:27 123KB JavaScript
1
sqlserver2016数据库,兼容级别2008,只有一个表pageen 4600多万条记录 sqlserver2016数据库,兼容级别2008,只有一个表pageen 4600多万条记录
2021-12-20 21:45:53 712.22MB 维基百科 数据库
1
维基百科语料库直接解压使用即可
2021-12-17 09:09:02 197.92MB 维基百科
1
维基百科中文语料库,是自然语言处理中常用的一个数据集,里面包含了大量的中文词条,本文件是2020年7月份最新的语料(2)。
2021-12-09 16:40:56 202.99MB 维基百科 中文语料库 数据集
1
wiki_idf 维基百科数据的idf值,详情可以参见tfidf介绍, idf为逆文档频率,可以用来衡量词语的常见或罕见程度,可以在特定领域进行关键词抽取,然后通过idf值进行过滤
2021-12-07 10:46:26 73.62MB 机器学习
1
用于BERT预训练,Bidirectional Encoder Representation from Transformers
2021-12-02 19:41:40 489.93MB BERT
1
维基百科PageRank 世界上最简单的维基百科爬虫和页面排名器。 要抓取一组页面并创建图表: String[] searchTerms = {"term1", "term2"}; int max_nodes = 1000; String outputFileName = "file_name.txt" WikiCrawler w = new WikiCrawler("/wiki/title_of_start_page", searchTerms, max_nodes, outputFileName); w.crawl(); 计算上图的页面排名: double eps = 0.05; //pagerank convergence criteria PageRank p = new PageRank(outputFileName, eps); String[] top100 =
2021-10-29 08:14:05 8KB Java
1
LZMA算法是目前比较流行的开源压缩软件7zip的基本算法,是俄罗斯人 Igor Pavlov于1999年发布的,本资源是维基百科上的详细介绍,是网上能找到的最详细的一个说明。
2021-10-13 19:08:00 96KB LZMA LZ77 区间编码 动态规划
1