基于Python Scrapy实现的豆瓣电影数据采集爬虫系统 含数据库SQL和全部源代码 # -*- coding: utf-8 -*- """ @Author : nesta @Email : 572645517@qq.com @Software: PyCharm @project : movie @File : MovieSpider.py @Time : 2018/4/26 9:18 """ from scrapy.spiders import Spider from scrapy.http import Request from scrapy.selector import Selector from movie.items import MovieItem class MovieSpider(Spider): name = 'movie' url = u'https://movie.douban.com/top250' start_urls = [u'https://movie.douban.com/top250'] def parse(self, response): item = MovieItem() selector = Selector(response) # 解析 movies = selector.xpath('//div[@class="info"]') for movie in movies: title = movie.xpath('div[@class="hd"]/a/span/text()').extract() fullTitle = '' for each in title: fullTitle += each movieInfo = movie.xpath('div[@class="bd"]/p/text()').extract() star = movie.xpath('div[@class="bd"]/div[@class="star"]/span[@class="rating_num"]/text()').extract()[0] quote = movie.xpath('div[@class="bd"]/p/span/text()').extract() if quote: quote = quote[0] else: quote = '' item['title'] = fullTitle item['movieInfo'] = ';'.join(movieInfo).replace(' ', '').replace('\n', '') item['star'] = star[0] item['quote'] = quote yield item nextPage = selector.xpath('//span[@class="next"]/link/@href').extract() if nextPage: nextPage = nextPage[0] print(self.url + str(nextPage)) yield Request(self.url + str(nextPage), callback=self.parse)
2021-07-10 17:02:46 14KB python scrapy 豆瓣电影 数据爬虫
基于Python Scrapy实现的腾讯招聘职位数据爬取爬虫系统 含结果数据集和全部源代码 # -*- coding: utf-8 -*- import scrapy from Tencent.items import TencentItem class TencentpostionSpider(scrapy.Spider): name = 'tencentPosition' allowed_domains = ['tencent.com'] url = "http://hr.tencent.com/position.php?&start=" offset = 0 # 起始url start_urls = [url + str(offset)] def parse(self, response): for each in response.xpath("//tr[@class='even'] | //tr[@class='odd']"): # 初始化模型对象 item = TencentItem() # 职位名称 item['positionname'] = each.xpath("./td[1]/a/text()").extract()[0] # 详情连接 item['positionlink'] = each.xpath("./td[1]/a/@href").extract()[0] # 职位类别 item['positionType'] = each.xpath("./td[2]/text()").extract()[0] # 招聘人数 item['peopleNum'] = each.xpath("./td[3]/text()").extract()[0] # 工作地点 item['workLocation'] = each.xpath("./td[4]/text()").extract()[0] # 发布时间 item['publishTime'] = each.xpath("./td[5]/text()").extract()[0] yield item if self.offset < 1680: self.offset += 10 # 每次处理完一页的数据之后,重新发送下一页页面请求 # self.offset自增10,同时拼接为新的url,并调用回调函数self.parse处理Response yield scrapy.Request(self.url + str(self.offset), callback=self.parse)
2021-07-10 17:02:45 15KB python scrapy 腾讯 招聘
【目录】 基于Django的图书管理系统 0 1 需求说明 1 2 设计架构 1 3 数据模型 1 3.1 用户模型 1 3.2 书籍模型 1 3.3 图片模型 2 4 关键代码说明 3 4.1 路由部分 3 4.2 重设密码部分 3 4.3 添加书籍部分 4 4.4 书籍列表部分 6 5 效果 7 5.1 前台 7 5.2 后台 8
2021-07-10 09:06:40 321KB Python django 图书管理 系统设计
# 图书管理系统说明V2.0 ### 项目介绍及再版说明(2016-01-24) 其实一开始做这个小项目在2014年的9到11月,当时是作为加入Pureweber开发组的大作业完成的。虽然用了两个月的时间,但是做出的东西还是有很多的缺陷。前些日子在整理GitHub时又想起来了这个项目,记得曾经还在Django中国社区里安利初学者来读代码什么的。但是想想里面还有很多不规范的代码和一些很糟糕的写法就感觉很蛋疼。本来想直接删除了好了,但是后来想想,何不花点时间把这个小项目重构一下,就可以给以后学习Django的同学一个完整的项目参考,就可以代替了一般培训课程或者老师上课PPT里那种陈旧或者不完整的例子。 于是一共花费了大约两天时间对项目进行了重构,主要做了以下方面的工作: * 将Django的版本更新到了最新的1.9.1。 * 修改了原先项目中不规范的格式、变量名等。 * 更改了项目的目录结构,换成了Django官方推荐的目录结构模式。 * 将原来缺失的文件上传保存部分补充完整了。 * 更改了用户部分的代码,将原来手动设置session的方式去掉了,替换为Django用户模块默认的登录态保存方式. * 修复了注册用户时用户提交空密码可能造成的安全漏洞。 * 做了对python3的支持。改动不多。 ### 项目所涉及的和Django相关的功能 项目的目的是为了给Django的初学者一个完整项目的参考案例,所以尽可能多的选择了初学者常用的方法处理一些问题,比如在视图的处理上选择了视图处理函数,而不是更好用的视图处理类。在参数传递上只使用了标准的POST和GET的方式传参,而没有使用url地址中提取参数的办法。该项目中主要涉及到的Django框架相关的内容有: * Models模型字段用法,外键关系用法。 [文档](https://docs.djangoproject.com/en/1.9/topics/db/models/) * 使用ORM进行数据库查询。 [文档](https://docs.djangoproject.com/en/1.9/topics/db/queries/) * Urls配置文件的写法,Urls命名与反向查询。 [文档](https://docs.djangoproject.com/en/1.9/topics/http/urls/) * Views视图处理函数。 [文档](https://docs.djangoproject.com/en/1.9/topics/http/views/) * Templates模板。 [文档](https://docs.djangoproject.com/en/1.9/ref/templates/language/) * 在admin站点中注册模型。 [文档](https://docs.djangoproject.com/en/1.9/ref/contrib/admin/) * Django自带用户模块的注册和登录。 [文档](https://docs.djangoproject.com/en/1.9/topics/auth/default/) * 对Django自带的用户模块进行拓展。 [文档](https://docs.djangoproject.com/en/1.9/topics/auth/customizing/) * 静态文件处理。 [文档](https://docs.djangoproject.com/en/1.9/ref/contrib/staticfiles/) * 还有一大堆其他的…… ### 系统说明 * 本系统使用Python的Django框架搭建。 * 前端部分使用bootstrap。 ### 运行说明 * 请参考Django官方文档[下载](https://www.djangoproject.com/download/)Django1.711.9.1版。 * 请按照Django官方文档[安装](https://docs.djangoproject.com/en/1.9/intro/install/)Django。 * 如果是水果电脑。。。请额外安装[PIL](http://www.pythonware.com/products/pil/)库。 * 通过终端进入项目文件夹。 * 在终端中执行`python manage.py runserver`命令即可运行本地开发服务器。 * 在浏览器里访问`http://127.0.0.1:8000`即可查看该网站。 ### 功能实现 * 实现了用户权限相关的基本操作(注册、登陆、修改密码、注销) * 实现了用户分级(普通用户与管理员用
2021-07-10 09:06:39 1.22MB Python django 图书管理 系统设计
图像识别人工智能(AI) 利用人工智能识别图像包括基于Python的训练和测试。 图像处理 在图像处理和人工智能领域获得计算机科学大学学位的最终项目。 是的,记住我不是计算机科学专业的学生。 类似项目 正在安装 $ pip install -r requirements.txt 它需要一个功能强大的系统来运行它。 如果您已经完全运行了该项目,请检查并解决错误。 谢谢。
2021-07-09 22:33:13 17KB python opencv recognition numpy
1
QADense(“KAY-密集”) 基于 Python 的 javascript/HTML5 计算机视觉乳房密度量化工具。 试试。 电子邮件 Jason D. Balkman, MD ( ) 所有编码/实现贡献和评论。 在 GNU GPL 许可下发布(请参阅 )。
2021-07-08 14:05:22 31.36MB JavaScript
1
波塞冬 软件定义的网络态势感知 波塞冬始于两个IQT Labs: 和。 该项目的目标是探索一种方法,以更好地识别给定(计算机)网络上的节点并了解它们在做什么。 该项目利用软件定义网络和机器学习来自动捕获网络流量,从流量中提取相关特征,通过经过训练的模型进行分类,传达结果,并提供采取进一步行动的机制。 尽管该项目最有效地利用了现代SDN,但它的部分内容仍可以与数据包捕获(pcap)文件一起使用。 目录 背景 波塞冬(Poseidon)项目最初是作为一项实验来测试,以测试利用SDN和机器学习技术检测异常网络行为的优点。 (请阅读下面链接的我们的,以了解其多年背景)。尽管这个长期目标仍然存在,但不幸的现实是,用于ML训练的丰富,标签化,公共和MODERN网络数据集的状态非常差。 我们的实验室正在努力提高网络训练集的可用性,但是在短期内,该项目仍将重点放在1)提高识别节点IS的准确性(基于捕获的IP标头数据)和2)将Poseidon开发为“利用”以容纳其他使用案例的机器学习技术。 (阅读:不只是我们的!) 先决条件 -Poseidon和相关组件在Docker之上运行,因此了解基础知识对于
2021-07-07 11:27:23 425KB docker security machine-learning automation
1
一、实验目标: 掌握基于SOCKET的网络编程方法。 基于Python语言,编写一个网络应用程序。 二、实验内容 即时通信小程序(基于套接字)。
2021-07-07 09:05:01 1.31MB 计算机网络
1
基于python-flask的微电影管理系统 前端功能路由 初步功能路由
2021-07-07 00:35:43 18.65MB 系统开源
1
银行产品营销活动 它由一个在python的jupyter笔记本中完成的,基于贷款预测模型的项目组成,该模型包含5000个银行客户的数据集。
2021-07-05 14:59:57 2.29MB JupyterNotebook
1