烧瓶嗖嗖嗖嗖
一个简单的 python Flask 应用程序,它运行一个数据抓取器和一个 Whoosh 搜索引擎实现。 我写这篇文章主要是为了从 RSS 提要中抓取财经新闻(标题、出版日期时间、简要摘要),并将数据索引到 Whoosh 搜索引擎中。 只是一个尝试新事物的小爱好项目。
先决条件
BeautifulSoup - 烧瓶 - Whoosh - 以上所有都可以通过pip安装。 例如。 'pip 安装 Whoosh'
指示
1.安装需要的依赖2.添加你想抓取的RSS提要的url,即。 第 85 行,server.py。 请注意,您可能必须更改 scrape() 以迎合特定 RSS 提要的 XML 3. 使用“python server.py”运行服务器。 Flask 的默认端口为 5000 数据应该被抓取和索引,新文件将被添加到“/data”文件夹
用法
1. 要搜索特定术语,请
2023-04-12 22:45:09
35KB
Python
1