小学语文毕业总复习:知识集锦之文学百科.pdf
2021-12-11 12:03:23 34KB
维基百科中文语料库,是自然语言处理中常用的一个数据集,里面包含了大量的中文词条,本文件是2020年7月份最新的语料(2)。
2021-12-09 16:40:56 202.99MB 维基百科 中文语料库 数据集
1
茶叶百科类通用源码主要是介绍与茶相关的一些知识,高仿的茶百科官方应用搜索一下“茶百科 百度应用”就可以找到,其实这一类的应用有普遍性,例如可以起名茶百科那就可以起名其他百科,无非是替换一下标题、图标和内容,大体的基本框架还是不用动的。本项目内数据直接调用http://sns.maimaicha.com/数据,使用json与网站做的交互。  
2021-12-07 18:09:24 5.71MB 安卓源码-生活应用
1
TeaBaike 茶百科
2021-12-07 18:02:59 3.2MB Java
1
wiki_idf 维基百科数据的idf值,详情可以参见tfidf介绍, idf为逆文档频率,可以用来衡量词语的常见或罕见程度,可以在特定领域进行关键词抽取,然后通过idf值进行过滤
2021-12-07 10:46:26 73.62MB 机器学习
1
校园广播稿生活百科.docx
2021-12-06 22:02:04 18KB
中国百科 中文词典 92 新版 多媒体 光盘 很好 都是非常不错的中国百科 中文词典 92 新版 多媒体 光盘 很好 都是非常不错的
2021-12-04 13:12:04 185.25MB 666
1
用于BERT预训练,Bidirectional Encoder Representation from Transformers
2021-12-02 19:41:40 489.93MB BERT
1
Python3.5实现的爬虫,截至2018年1月06日可用,为了测试方便我在循环里循环到50次强制退出了,大家可以自行修改。
2021-11-30 18:00:45 62KB 百度百科爬虫
1
基于Lucene的电影搜索引擎 内容介绍 本文研究的主要内容是:面向电影搜索引擎的功能设计和技术实现。搜索引擎功能设计主要包括,信息资源的集成,查询扩展模块,Lucene检索模块,结果可视化。 信息资源的集成主要使用网络爬虫技术,利用java语言的regex包和selenium插件实现模拟登录以获取新浪微博,豆瓣电影,百度百科,相关新闻等不同数据源数据,以文档形式存储。查询扩展模块通过IKAnalayzer实现输入文本的分词和关键词的提取,为检索做准备。Lucene检索主要包括建立索引和对结果文档的排序。搜索结果可视化通过spring MVC框架搭建完整的系统实现。 技术实现主要包括:基于Lucene的全文检索技术,spring MVC框架,java爬虫技术,Python爬虫技术,html+css+JavaScript网页设计等。 实现流程详解 文本预处理 由于数据基本上都是中文的,Luc
2021-11-30 12:13:36 90.89MB Java
1