基于Python Scrapy实现的拉勾网全站职位数据采集 爬虫系统 含数据库处理 # -*- coding: utf-8 -*- # Define here the models for your scraped items # # See documentation in: # http://doc.scrapy.org/en/latest/topics/items.html import scrapy,re from scrapy.loader import ItemLoader from scrapy.loader.processors import MapCompose, TakeFirst from w3lib.html import remove_tags def extract_num(text): #从字符串中提取出数字 match_re = re.match(".*?(\d+).*", text) if match_re: nums = int(match_re.group(1)) else: nums = 0 return nums def replace_splash(value): '''去除/''' return value.replace("/", "") def handle_strip(value): '''空格''' return value.strip() def handle_jobaddr(value): '''去查看地图''' addr_list = value.split("\n") addr_list = [item.strip() for item in addr_list if item.strip() != "查看地图"] return "".join(addr_list) class LagouJobItemLoader(ItemLoader): #自定义itemloader default_output_processor = TakeFirst() class LagouJobItem(scrapy.Item): #拉勾网职位 title = scrapy.Field() url = scrapy.Field() salary = scrapy.Field() job_city = scrapy.Field( input_processor=MapCompose(replace_splash), ) work_years = scrapy.Field( input_processor=MapCompose(replace_splash), ) degree_need = scrapy.Field( input_processor=MapCompose(replace_splash), ) job_type = scrapy.Field() publish_time = scrapy.Field() job_advantage = scrapy.Field() job_desc = scrapy.Field( input_processor=MapCompose(handle_strip), ) job_addr = scrapy.Field( input_processor=MapCompose(remove_tags, handle_jobaddr), ) company_name = scrapy.Field( input_processor=MapCompose(handle_strip), ) company_url = scrapy.Field() crawl_time = scrapy.Field() crawl_update_time = scrapy.Field() def get_insert_sql(self): insert_sql = """ insert into lagou_job(title, url, salary, job_city, work_years, degree_need, job_type, publish_time
2021-07-10 17:02:48 7KB python scapy 爬虫 拉勾
基于Python Scrapy实现的拉勾网全站职位数据采集 爬虫系统 含数据库处理和全部源代码 # -*- coding: utf-8 -*- import scrapy from meiju100.items import Meiju100Item class MeijuSpider(scrapy.Spider): name = "meiju" allowed_domains = ["meijutt.com"] start_urls = ['http://www.meijutt.com/new100.html'] def parse(self, response): items = [] subSelector = response.xpath('//ul[@class="top-list fn-clear"]/li') for sub in subSelector: item = Meiju100Item() item['storyName'] = sub.xpath('./h5/a/text()').extract() item['storyState'] = sub.xpath('./span[1]/font/text()').extract() if item['storyState']: pass else: item['storyState'] = sub.xpath('./span[1]/text()').extract() item['tvStation'] = sub.xpath('./span[2]/text()').extract() if item['tvStation']: pass else: item['tvStation'] = [u'未知'] item['updateTime'] = sub.xpath('./div[2]/text()').extract() if item['updateTime']: pass else: item['updateTime'] = sub.xpath('./div[2]/font/text()').extract() items.append(item) return items
2021-07-10 17:02:48 14KB Python scrapy 爬虫 数据采集
PHP品牌微推联盟单品微信分销系统网整站源码 带数据库+安装说明 效果演示:http://tuiwww.a5ymg.cn/ PHP品牌微推联盟网站源码下载,单品微信分销源码,带数据库,内附安装说明 切换首页模板说明: 选择需要的首页模板,重命名为index.php即可。 共6套模板:index.php(默认)、index1.html、index2.html、index3.html、index4.html index5.html
2021-07-05 16:02:13 11.17MB 品牌微推联盟
通过对比、分析5G非独立组网(NSA)和独立组网(SA)架构的网络部署及优缺点,结合煤矿井下4G“一网一站”已普遍应用的现状,提出了基于NSA的煤矿井下4G与5G融合网络架构,利用4G网络实现语音、调度功能,5G网络拓展其他智能化应用,以最大程度地减少投资。研究了煤矿井下5G网络传输方式,重点探讨了5G承载网的3种前传组网方案及适用场景:光纤直连方案适用于井下水泵房、变电所等场所的机器人巡检,虚拟现实(VR)/增强现实(AR)培训,无人值守工作面等场景;无源波分复用方案适用于井下网络部署简单、独立维护性强的场景;有源光传送网方案可灵活适应不同场景。探讨了智能巡检机器人、环境监测与安全防护、VR/AR智慧煤矿、井下车辆无人驾驶4种煤矿井下5G网络切片应用场景,分析了不同场景下5G组网架构的应用模式。
1
先获取4k图片各个目录的首页链接,抓取4k风景、4k美女…这一栏就可以了。 对http://pic.netbian.com发送一个get请求,分析请求回来的数据包,解析出各个分类首页链接! 查看下载原图按钮的请求路径,发现这个是js动态绑定的事件,然后去找js源码! 通过js源码,我们可以发现,他是获取按钮上的data-id数值,发送一个 /e/extend/downpic.php?id= data-id &t= 0-1随机数字 请求,获取一个json数据,json数据里面携带了三个内容: msg:整数,判断用户状态的(是否会员,是否用完下载次数,是否未登录用户第一次下载) info: 文
2021-06-24 00:16:52 1.37MB 爬虫
1
精仿英雄联盟官网整站源代码+项目文档 html+css+js 效果截图http://www.a5ymg.cn/2241.html 花了1个月左右时间完成的。利用html+css+js,完成了英雄联盟官网大部分的效果;整个网站结构清晰,分类明确;并配有项目文档; 适合对网站,网页,游戏网站感兴趣的朋友,参考,学习;
2021-06-21 18:08:22 14.59MB 仿英雄联盟
知吗网整站打包2020年友价仿互站虚拟交易商城源码 截图+效果演示http://www.songzifc.cn/post/6018.html 本套源码资源打包后有2.2G,平台上传不了 直接给出下载链接吧 【超炫】2020最新友价商城高仿知吗网虚拟商城交易源码整站打包【带安装教程】 环境要求:linux+apache+php5.2+伪静态
t4风格友价商城 虚拟交易商城平台网整站源码 效果展示http://t4.vbjcw.cn/(本站仅做演示)
2021-05-16 22:01:30 29.35MB t4 友价商城
92game 仿《66874》TXT小说网整站源码下载 帝国CMS内核 带手机版,66874程序主要是全集全本全文完结版完整版电子书下载,免费小说下载和免费电子书下载,致力打造中国绿色TXT小说下载门户小说下载网。
2021-04-22 09:05:47 318B 帝国CMS 66874源码
1
源码简介说明: 现在网上卖的都是老版本3.1或者3.2的 这套源码已更新到X3.4版本。 已经删除一些无用的帖子附件,大大减小了体积。目前zip格式压缩包为179MB,用户安装后无需再更新,帖子内容页带网盘数据。 本源码后台带支付接口插件,有支付宝的可以使用自己的接口,没有支付宝接口的可以在discuz应用中心申请第三方的自动支付接口。 本源码附有超详细的文字安装教程,按教程就可以安装。 本源码站长亲测完整可用。 程序代码:php 数据大小:压缩包180MB左右,解压后290MB左右,安装空间建议1GB及以上。 程序版本:Discuz! X3.4
2021-04-22 09:02:11 175.26MB 虚拟货源网 创业资源 论坛源码