拉勾网设计岗位数据爬虫结果,包括businessZones companyFullName companyLabelList financeStage skillLables companySize latitude longitude city district salary secondType workYear education firstType thirdType positionName positionLables positionAdvantage need等数据,仅供参考
2021-07-20 14:59:04 181KB python
1
基于Scrapy框架的Python3就业信息Jobspiders爬虫 Items.py : 定义爬取的数据 pipelines.py : 管道文件,异步存储爬取的数据 spiders文件夹 : 爬虫程序 settings.py : Srapy设定,请参考 scrapy spider 爬取三大知名网站,使用三种技术手段 第一种直接从网页中获取数据,采用的是scrapy的基础爬虫模块,爬的是51job 第二种采用扒接口,从接口中获取数据,爬的是智联招聘 第三种采用的是整站的爬取,爬的是拉钩网 获取想要的数据并将数据存入mysql数据库中,方便以后的就业趋势分析 实现功能: 从三大知名网站上爬取就业信息,爬取发布工作的日期,薪资,城市,岗位有那些福利,要求,分类等等,并将爬到的数据存到mysql数据库中 使用教程: 运行前需要安装的环境 Python3 Ubantu16.04自带,sudo ap
2021-07-15 09:16:44 16.83MB python3 scrapy spiders lagou
1
基于Python Scrapy实现的拉勾网全站职位数据采集 爬虫系统 含数据库处理 # -*- coding: utf-8 -*- # Define here the models for your scraped items # # See documentation in: # http://doc.scrapy.org/en/latest/topics/items.html import scrapy,re from scrapy.loader import ItemLoader from scrapy.loader.processors import MapCompose, TakeFirst from w3lib.html import remove_tags def extract_num(text): #从字符串中提取出数字 match_re = re.match(".*?(\d+).*", text) if match_re: nums = int(match_re.group(1)) else: nums = 0 return nums def replace_splash(value): '''去除/''' return value.replace("/", "") def handle_strip(value): '''空格''' return value.strip() def handle_jobaddr(value): '''去查看地图''' addr_list = value.split("\n") addr_list = [item.strip() for item in addr_list if item.strip() != "查看地图"] return "".join(addr_list) class LagouJobItemLoader(ItemLoader): #自定义itemloader default_output_processor = TakeFirst() class LagouJobItem(scrapy.Item): #拉勾网职位 title = scrapy.Field() url = scrapy.Field() salary = scrapy.Field() job_city = scrapy.Field( input_processor=MapCompose(replace_splash), ) work_years = scrapy.Field( input_processor=MapCompose(replace_splash), ) degree_need = scrapy.Field( input_processor=MapCompose(replace_splash), ) job_type = scrapy.Field() publish_time = scrapy.Field() job_advantage = scrapy.Field() job_desc = scrapy.Field( input_processor=MapCompose(handle_strip), ) job_addr = scrapy.Field( input_processor=MapCompose(remove_tags, handle_jobaddr), ) company_name = scrapy.Field( input_processor=MapCompose(handle_strip), ) company_url = scrapy.Field() crawl_time = scrapy.Field() crawl_update_time = scrapy.Field() def get_insert_sql(self): insert_sql = """ insert into lagou_job(title, url, salary, job_city, work_years, degree_need, job_type, publish_time
2021-07-10 17:02:48 7KB python scapy 爬虫 拉勾
基于Python Scrapy实现的拉勾网全站职位数据采集 爬虫系统 含数据库处理和全部源代码 # -*- coding: utf-8 -*- import scrapy from meiju100.items import Meiju100Item class MeijuSpider(scrapy.Spider): name = "meiju" allowed_domains = ["meijutt.com"] start_urls = ['http://www.meijutt.com/new100.html'] def parse(self, response): items = [] subSelector = response.xpath('//ul[@class="top-list fn-clear"]/li') for sub in subSelector: item = Meiju100Item() item['storyName'] = sub.xpath('./h5/a/text()').extract() item['storyState'] = sub.xpath('./span[1]/font/text()').extract() if item['storyState']: pass else: item['storyState'] = sub.xpath('./span[1]/text()').extract() item['tvStation'] = sub.xpath('./span[2]/text()').extract() if item['tvStation']: pass else: item['tvStation'] = [u'未知'] item['updateTime'] = sub.xpath('./div[2]/text()').extract() if item['updateTime']: pass else: item['updateTime'] = sub.xpath('./div[2]/font/text()').extract() items.append(item) return items
2021-07-10 17:02:48 14KB Python scrapy 爬虫 数据采集
仿拉勾网招聘网站模板HTML整站
2021-06-27 13:41:34 3.5MB 拉勾网 HTML 网站 web开发
1
微信小程序源码-仿拉勾网APP界面.zip
2021-06-26 12:05:34 277KB 小程序,互联网,源码
仿拉勾网招聘网站模板.rar
2021-06-21 12:03:29 3.48MB 拉勾网 招聘网站 网站模板
使用scrapy框架爬取拉勾网数据,相关博客链接http://blog.csdn.net/hemk340200600/article/details/77803297
2021-06-07 18:14:43 10KB python爬虫
1
lleell.github.io 拉勾网程序猿节网站保存版
2021-04-30 17:03:05 2.59MB JavaScript
1
样本量:1631条数据, 爬取城市:'北京', '上海', '深圳', '广州', '杭州', '成都', '南京', '武汉', '西安', '厦门', '长沙', '苏州', '天津', 关键字:“数据分析” 爬取日期:2019-07-15
2021-04-25 13:05:23 517KB 爬虫
1