安装python 3.4+环境(推荐Anaconda或Miniconda) 安装lxml html解析器,命令为pip install lxml 安装jieba分词组件,命令为pip install jieba 安装Flask Web框架,命令为pip install Flask 进入web文件夹,运行main.py文件
2022-05-31 09:12:15 7.66MB python 搜索引擎
:newspaper: 新闻搜索者React App 这个React应用程序允许用户按商业,娱乐,健康,科学等类别搜索阿根廷新闻过滤器。 在这个项目中,我为表单的html select元素使用了自定义钩子,用户可以在其中选择所需的类别。 这使我可以区分职责,自定义钩子可以获取用户选择,并且表单仅发送到App.js,在useEffect中使用该表单来实现API咨询并获取所需类别的所有新闻。 该项目中的React概念是组件,useEffect,useState,自定义钩子,css模块,以为组件提供样式,并使用具有异步JavaScript函数(获取)的API和具有prop类型的组件文档。 :wrench: 组件 标题:显示页面标题。 表单:显示包含所有可用类别的html选择表单组件。 新闻列表:它负责显示从API获取的所有新闻。 新闻:它代表NewsList组件使用的一条新闻。
2022-05-22 19:29:41 173KB react javascript api newsapi-org
1
新闻搜索引擎 使用方法 安装python 3.4+环境(推荐或 ) 安装lxml html解析器,命令为pip install lxml 安装jieba分词组件,命令为pip install jieba 安装Flask Web框架,命令为pip install Flask 进入web文件夹,运行main.py文件 :浏览器,访问输入关键字开始测试 如果想抓取最新新闻数据并编制索引,一键运行./code/setup.py ,再按上面的方法测试。 2020.4.5:添加抓取的爬虫程序。先运行./code/spider.chinanews.com.py爬取最近5天新闻(约2500条);然后注释./
2022-05-03 12:21:54 7.9MB search-engine flask news jieba
1
1,使用python爬虫爬取最新新闻,并建立索引 2,python端使用flask web框架呈现给用户,用户输入关键字即可按照相关度算法查找最相关的新闻 3,后台管理使用SpringBoot框架整合Mybatis框架,数据库使用MySQL,可以对新闻进行增删改查,或加入黑名单,或进行过滤 4,包含爬虫,相关度算法,springboot,bybatis等技术,下载即可运行,在次基础上改进作为本科毕业设计或课程设计足矣。
2022-04-06 03:12:59 3.87MB 搜索引擎 Python爬虫 SpringBoot Mybatis
财经新闻搜索引擎 从财经新闻网页数据开始,进行正文提取、中文分词、倒排索引构建、执行搜索和UI。 要求技术:MapReduce或Spark;执行搜索和UI采用Spark或Java 步骤: (1)新闻正文提取,采用正则表达式提取指定网站栏目新闻的标题、正文和发表时间。 评分标准:一个栏目15分(多一个栏目+5分)(25分);使用通用算法提取不固定格式正文(不算很难)40分 (2)中文分词(worldcount),将正文进行中文分词,保存每个新闻的URL、标题、正文等数据 评分标准:分词并将正文存储到文件15分;存储到HBase(本地)+5分 (3)倒排索引构建,将词汇、次数和文章ID构建成倒排索引和对应的TF值 评分标准:计算倒排索引并存储到文本文件15分;存储到HBase(本地)+5分;计算TF值5分 (4)执行搜索,对用户搜索词进行分词,从倒排索引读取对应词汇,读取TF值,读取数据计算IDF值,根据IF×IDF值对词汇对应的文章进行排序,显示排序后的正文摘要 评分标准:25分,有交互式UI(如网页)+10分 (5)优化和执行 评分标准:shuffle优化并做对比测试+10分;第(2)
2022-04-06 02:48:23 6.88MB 搜索引擎 spark 中文分词 大数据
Springboot2.x整合ElasticSearch7.x新闻搜索项目实战视频教程:本课程基于Java开发,通过项目案例的方式讲解Elasticsearch分布式搜索引擎(Elasticsearch索引)中的核心技术,ElasticSearch版本是目前稳定版本,学员学习本课程以后可以初级实现类似百度新闻搜索项目。 ElasticSearch是一个基于Lucene的分布式搜索引擎,适合做大数据搜索和大数据分析,百度、腾讯、360、斗鱼、快手、饿了么等诸多一线互联网公司都在使用Elasticsearch。 1. 课程提供完整项目文档,项目源码,测试数据和软件工具。 2. 技术点包括 高亮、搜索补全、分词器、核心概念、索引优化、前端代码仿搜索引擎、新闻测试数据 学习路线:
1
附带数据库 一个最简单的php新闻页面
2021-09-28 08:44:18 716KB 新闻搜索 php
1
采用多种方法(LSA,TFIDF,Doc2Vec)建立新闻搜索系统,每个搭建一个模型,内含数据跟训练调用方法。
2021-06-23 11:03:59 533.87MB Doc2Vec LSA tf-idf 新闻系统