美团,饿了么,百度外卖三大外卖平台的店铺,菜品数据爬虫源码 百度外卖: 1,TakeAwayService.java根据起始的gps坐标(百度加密后的),进行地图的重定向,用redis进行了一个深度的递归归,逻辑如下: (1)当前坐标内可获取到的商家经纬度,取最大最小经纬度组成的四点入金额redis; (2)多线程方式pop redis中的坐标做步骤1的逻辑处理,将获取的所有商家id入库; (3)当步骤二中的商家id没有获取到,或者获取到的所有商家id均落在之前已获取的商家列表中,这两种方式都将为递归的结束标志; 2,GetShopInfoByIdThread.java是获取商铺信息及店铺id补充:百度外卖因为对坐标进行了特定的加密,所以对于上述步骤1的初始坐标的录入,对地图进行了遍历方式的切割,以相隔5公里的坐标点作为起点,相互补充获取全量数据 饿了么: 主要两种方式介绍全量shopi
2021-06-04 15:47:03 52KB 系统开源
1
webofneeds-needcrawler 用于需求网络的简单需求爬虫
2021-06-03 18:05:59 2KB Java
1
Python 模拟抓取百度贴吧爬虫源码,除了抓取百度贴吧,还模拟抓取了糗事百科的内容,   关于模拟抓取百度贴吧:   语言:Python 2.7   操作:输入网址后自动只看楼主并保存到本地文件   功能:将楼主发布的内容打包txt存储到本地。      关于抓取糗事百科内容:   操作:输入quit退出阅读糗事百科   功能:按下回车依次浏览今日的糗百热点   更新:解决了命令提示行下乱码的问题
2021-06-02 20:17:29 13KB 其它源码-Python
1
爬取中国大学排名,带gui界面,图形化表示。网站改了,没法爬取内容了,所以此源码仅供参考,自己改改还能用在别的网页上
2021-06-02 09:04:47 18KB python 爬虫
1
城市58 58同城全国城市房屋信息爬虫,爬取内容包括:各行政区域小区的详情页数据,各小区内出租房和二手房的详情页数据。 抓取流程 进入XA小区列表页面,抓取各行政区编号,并初始化各行政区首页URL 遍历抓取各行政区所有页面的小区详情页URL 进入小区详情页,抓取小区名称,房价,地址等数据 进入小区二手房列表页面,翻页抓取所有二手房名称,房价,户型等数据 进入小区出租房列表页面,翻页抓取所有出租房详情页面URL 进入出租房详情页,抓取名称,房价,户型,地址,房屋类型等数据 第三方依赖 库 描述 扭曲的 (最新)18.9.0 Pywin32 注意: Twisted 18.9.0以下版本可能需要安装Microsoft Visual C ++生成工具 Pywin32不可pip安装,必须去官网下载对应版本的.exe程序手动安装。 解释 为方便调试程序,Spider中设置仅抓取一个行政区域的第一
2021-06-01 15:02:51 26KB Python
1
把第一次的爬虫代码做了改进,增加了容错机制,可按照预定的数量完成爬虫任务,输出到excel;中间发现页面错误不会因为报错中断程序
2021-05-24 00:44:30 1KB 爬虫 跳过错误
1
python自定义网络爬虫源码
2021-05-06 19:01:44 24KB 爬虫源码 图片爬虫
1
用Python爬取猫途鹰旅游网站的爬虫代码; 爬取到的数据有:酒店和景点信息,酒店评论信息,景点评论信息; 内附爬虫过程的思路和难点介绍
2021-05-04 09:03:43 71KB Python爬虫
由于项目需要,特研究了一段时间关于java爬虫的相关技术,发现一个比较好用的爬虫框架--WebMagic,只需少量代码即可实现一个爬虫,本项目就是基于它的一个简单实现,导入项目即可运行,项目只有两个类,一个用于抓取,一个用于处理抓取到的数据,存入数据库或导出到excel等(只打印到控制台,后续自己发挥),简单吧,代码真的很少
2021-04-14 15:09:25 477B WebMagic
1
c#利用WebClient和WebRequest获取京东网页商品信息评价数、商品价格、活动标语等。
2021-04-11 18:24:29 1.02MB 京东 JD 爬虫 .NET源码
1