Java拉勾网源码 lagou-course-downloader 拉勾网课程视频下载工具 本程序仅供学习交流使用 更新日志 2021年6月01日 阿里云私有加密视频下载解析 2021年5月20日 获取训练营课程视频和资料 2021年5月9日 获取账户下所有课程 加入章节历史下载记录 排除某些课程 2020年12月11日 解决签名不匹配问题 跳过未发布的课程视频 调整代码结构 2020年8月7日 支持最新的拉钩教育视频下载. 前置要求 已购买拉钩上的 成功登陆拉钩网 官网: 其他 Lagou课程的视频现托管在阿里云, 视频元数据API接口文档:https://help.aliyun.com/document_detail/56124.html?spm=a2c4g.11186623.2.30.14487fbfjBfxAC 视频的PreAuthCode解密算法(md,后来发现是BASE64)逆向自aliplayer-min.js 视频片段使用AES-CBC-128加密/解密,通过分析js获取,视频的密钥在视频的m3u8文件中有地址。 视频片段通过ffmpeg合并 现在直接获取视频的mp4地
2022-02-21 14:42:59 69KB 系统开源
1
该项目已不再维护 前提说明 1.拉勾网搜索页面一般都只展示30页、每页15个职位信息,一次搜索约450条 2.拉勾网反爬虫机制更新频繁,直接解析Ajax请求容易触发反爬虫机制(提示:”msg”:”您操作太频繁,请稍后再访问”),浏览器也无法访问。 3.解析这个Ajax请求前发起GET请求获取当前会话session, 可在某程度上解决第2点, 但在频繁请求后仍会触发反爬虫机制, 被Ban IP 开发设计 1.可构建大量代理IP池, 通过不断更换代理IP的方式, 解析Ajax请求进行爬取 2.亦可使用 selenium 浏览器自动化测试框架驱动谷歌浏览器, 模拟人使用浏览器查看网页的过程获取数据 3.此程序使用第2点解决方案, 使用 selenium 模拟人操作 4.搜索页和详情页请求过快便会跳出来登录页面, 连续请求10个详情页也会弹出登录页面, 因此此程序需要登录 5.在第一次登录后将保存
2021-08-26 14:54:29 1.09MB HTML
1
基于Scrapy框架的Python3就业信息Jobspiders爬虫 Items.py : 定义爬取的数据 pipelines.py : 管道文件,异步存储爬取的数据 spiders文件夹 : 爬虫程序 settings.py : Srapy设定,请参考 scrapy spider 爬取三大知名网站,使用三种技术手段 第一种直接从网页中获取数据,采用的是scrapy的基础爬虫模块,爬的是51job 第二种采用扒接口,从接口中获取数据,爬的是智联招聘 第三种采用的是整站的爬取,爬的是拉钩网 获取想要的数据并将数据存入mysql数据库中,方便以后的就业趋势分析 实现功能: 从三大知名网站上爬取就业信息,爬取发布工作的日期,薪资,城市,岗位有那些福利,要求,分类等等,并将爬到的数据存到mysql数据库中 使用教程: 运行前需要安装的环境 Python3 Ubantu16.04自带,sudo ap
2021-07-15 09:16:44 16.83MB python3 scrapy spiders lagou
1