该项目已不再维护 前提说明 1.拉勾网搜索页面一般都只展示30页、每页15个职位信息,一次搜索约450条 2.拉勾网反爬虫机制更新频繁,直接解析Ajax请求容易触发反爬虫机制(提示:”msg”:”您操作太频繁,请稍后再访问”),浏览器也无法访问。 3.解析这个Ajax请求前发起GET请求获取当前会话session, 可在某程度上解决第2点, 但在频繁请求后仍会触发反爬虫机制, 被Ban IP 开发设计 1.可构建大量代理IP池, 通过不断更换代理IP的方式, 解析Ajax请求进行爬取 2.亦可使用 selenium 浏览器自动化测试框架驱动谷歌浏览器, 模拟人使用浏览器查看网页的过程获取数据 3.此程序使用第2点解决方案, 使用 selenium 模拟人操作 4.搜索页和详情页请求过快便会跳出来登录页面, 连续请求10个详情页也会弹出登录页面, 因此此程序需要登录 5.在第一次登录后将保存
2021-08-26 14:54:29 1.09MB HTML
1
拉勾教育专栏-计算机网络通关 29 讲
2021-08-16 22:10:13 12.34MB 专栏资源 markdown pdf
1目标 实践目标 1、掌握Python基础语言语法知识; 2、掌握Pycharm工具的使用; 3、掌握SeleniumWeb应用程序测试的工具在爬虫中的使用; 4、掌握爬虫技术;Json解析方法; 5、掌握Django框架的使用; 6、掌握可视化工具Echarts; 7、掌握bootstrap页面框架的使用; 2功能需求 爬取拉勾网Python全国招聘的求职信息,通过requests 请求获取单页面,然后分析页面加载找到数据,添加headers信息,模仿浏览器请求,最后解析页面,实现翻页爬取。根据爬取的结果信息进行数据分析与可视化,使用echarts实现数据可视化,展示Python岗位招聘全国范围内各个城市的招聘数量信息结果图形化展示。
2021-07-25 09:03:53 8.2MB Python DJango 爬虫
1
根据关键词爬取拉勾职位数据,并存入mysql,采用多线程,且加上去重处理 根据关键词爬取拉勾职位数据,并存入mysql,采用多线程,且加上去重处理 根据关键词爬取拉勾职位数据,并存入mysql,采用多线程,且加上去重处理 根据关键词爬取拉勾职位数据,并存入mysql,采用多线程,且加上去重处理
2021-07-22 14:41:27 7KB 爬虫 多线程 拉勾网 mysql
1
拉勾网设计岗位数据爬虫结果,包括businessZones companyFullName companyLabelList financeStage skillLables companySize latitude longitude city district salary secondType workYear education firstType thirdType positionName positionLables positionAdvantage need等数据,仅供参考
2021-07-20 14:59:04 181KB python
1
基于Scrapy框架的Python3就业信息Jobspiders爬虫 Items.py : 定义爬取的数据 pipelines.py : 管道文件,异步存储爬取的数据 spiders文件夹 : 爬虫程序 settings.py : Srapy设定,请参考 scrapy spider 爬取三大知名网站,使用三种技术手段 第一种直接从网页中获取数据,采用的是scrapy的基础爬虫模块,爬的是51job 第二种采用扒接口,从接口中获取数据,爬的是智联招聘 第三种采用的是整站的爬取,爬的是拉钩网 获取想要的数据并将数据存入mysql数据库中,方便以后的就业趋势分析 实现功能: 从三大知名网站上爬取就业信息,爬取发布工作的日期,薪资,城市,岗位有那些福利,要求,分类等等,并将爬到的数据存到mysql数据库中 使用教程: 运行前需要安装的环境 Python3 Ubantu16.04自带,sudo ap
2021-07-15 09:16:44 16.83MB python3 scrapy spiders lagou
1
基于Python Scrapy实现的拉勾网全站职位数据采集 爬虫系统 含数据库处理 # -*- coding: utf-8 -*- # Define here the models for your scraped items # # See documentation in: # http://doc.scrapy.org/en/latest/topics/items.html import scrapy,re from scrapy.loader import ItemLoader from scrapy.loader.processors import MapCompose, TakeFirst from w3lib.html import remove_tags def extract_num(text): #从字符串中提取出数字 match_re = re.match(".*?(\d+).*", text) if match_re: nums = int(match_re.group(1)) else: nums = 0 return nums def replace_splash(value): '''去除/''' return value.replace("/", "") def handle_strip(value): '''空格''' return value.strip() def handle_jobaddr(value): '''去查看地图''' addr_list = value.split("\n") addr_list = [item.strip() for item in addr_list if item.strip() != "查看地图"] return "".join(addr_list) class LagouJobItemLoader(ItemLoader): #自定义itemloader default_output_processor = TakeFirst() class LagouJobItem(scrapy.Item): #拉勾网职位 title = scrapy.Field() url = scrapy.Field() salary = scrapy.Field() job_city = scrapy.Field( input_processor=MapCompose(replace_splash), ) work_years = scrapy.Field( input_processor=MapCompose(replace_splash), ) degree_need = scrapy.Field( input_processor=MapCompose(replace_splash), ) job_type = scrapy.Field() publish_time = scrapy.Field() job_advantage = scrapy.Field() job_desc = scrapy.Field( input_processor=MapCompose(handle_strip), ) job_addr = scrapy.Field( input_processor=MapCompose(remove_tags, handle_jobaddr), ) company_name = scrapy.Field( input_processor=MapCompose(handle_strip), ) company_url = scrapy.Field() crawl_time = scrapy.Field() crawl_update_time = scrapy.Field() def get_insert_sql(self): insert_sql = """ insert into lagou_job(title, url, salary, job_city, work_years, degree_need, job_type, publish_time
2021-07-10 17:02:48 7KB python scapy 爬虫 拉勾
基于Python Scrapy实现的拉勾网全站职位数据采集 爬虫系统 含数据库处理和全部源代码 # -*- coding: utf-8 -*- import scrapy from meiju100.items import Meiju100Item class MeijuSpider(scrapy.Spider): name = "meiju" allowed_domains = ["meijutt.com"] start_urls = ['http://www.meijutt.com/new100.html'] def parse(self, response): items = [] subSelector = response.xpath('//ul[@class="top-list fn-clear"]/li') for sub in subSelector: item = Meiju100Item() item['storyName'] = sub.xpath('./h5/a/text()').extract() item['storyState'] = sub.xpath('./span[1]/font/text()').extract() if item['storyState']: pass else: item['storyState'] = sub.xpath('./span[1]/text()').extract() item['tvStation'] = sub.xpath('./span[2]/text()').extract() if item['tvStation']: pass else: item['tvStation'] = [u'未知'] item['updateTime'] = sub.xpath('./div[2]/text()').extract() if item['updateTime']: pass else: item['updateTime'] = sub.xpath('./div[2]/font/text()').extract() items.append(item) return items
2021-07-10 17:02:48 14KB Python scrapy 爬虫 数据采集
拉勾小契约互动交友小程序源码 (1).zip
2021-07-01 17:07:01 2.57MB 小程序源码