基于Python Scrapy实现的豆瓣电影数据采集爬虫系统 含数据库SQL和全部源代码 # -*- coding: utf-8 -*- """ @Author : nesta @Email : 572645517@qq.com @Software: PyCharm @project : movie @File : MovieSpider.py @Time : 2018/4/26 9:18 """ from scrapy.spiders import Spider from scrapy.http import Request from scrapy.selector import Selector from movie.items import MovieItem class MovieSpider(Spider): name = 'movie' url = u'https://movie.douban.com/top250' start_urls = [u'https://movie.douban.com/top250'] def parse(self, response): item = MovieItem() selector = Selector(response) # 解析 movies = selector.xpath('//div[@class="info"]') for movie in movies: title = movie.xpath('div[@class="hd"]/a/span/text()').extract() fullTitle = '' for each in title: fullTitle += each movieInfo = movie.xpath('div[@class="bd"]/p/text()').extract() star = movie.xpath('div[@class="bd"]/div[@class="star"]/span[@class="rating_num"]/text()').extract()[0] quote = movie.xpath('div[@class="bd"]/p/span/text()').extract() if quote: quote = quote[0] else: quote = '' item['title'] = fullTitle item['movieInfo'] = ';'.join(movieInfo).replace(' ', '').replace('\n', '') item['star'] = star[0] item['quote'] = quote yield item nextPage = selector.xpath('//span[@class="next"]/link/@href').extract() if nextPage: nextPage = nextPage[0] print(self.url + str(nextPage)) yield Request(self.url + str(nextPage), callback=self.parse)
2021-07-10 17:02:46 14KB python scrapy 豆瓣电影 数据爬虫
共85959条数据,爬取时间的为2018年3月18日,数据包括爬取时间,爬取链接,微博url,用户id,用户昵称,用户头像,关注数,粉丝数,发布时间,微博内容, 微博内容txt,发自,转发数,评论数,点赞数,是否长微博,微博配图,视频地址,视频封面,是否转发,原微博,转发,热门评论,评论
2021-07-08 21:19:21 171.82MB 央视新闻 微博数据 爬虫
1
新冠疫情背景下大数据爬虫技术实训课程构建.pdf
2021-07-08 09:04:33 912KB 大数据 数据分析 数据应用 数据时代
包含各国从2020年3月份至你下载这天的数据,包含数据爬虫,数据分析与图表处理,以及部分模型建立。童叟无欺,有任何关于代码的问题都可以私信我
2021-07-03 09:13:33 3.66MB 数据分析 疫情分析
1
基于Python的新浪微博数据爬虫.pdf
2021-06-29 15:03:31 1.03MB Python 程序 数据处理 专业指导
基于Python的招聘数据爬虫设计与实现.pdf
2021-06-28 20:03:56 2.83MB Python 程序 软件开发 论文期刊
对东方财富和网易财经网站爬虫,获取个线数据并存入Mysql数据库。通过Python调用数据并进行基础金融数据分析,在Jupyter Notebook上进行展示。代码通过股票项目说明的简单修改,可以直接在Macos,Linux操作系统的服务器上直接使用。
2021-06-27 15:04:31 225KB 金融 Mysql 爬虫
1. 需求分析     从重庆市政府采购网自动获取所有的采购公告信息,将其项目名称和采购物资通过可读的方式展示。 2. 实现过程 分析页面布局 第一次爬取到“假网址” (1)首先,展示第一次爬取到的“假网址”。通过 xpath 匹配该 div。 (2)尝试采集当前页面的所有二级链接。 import requests from lxml import etree import json def getpage(url, headers): res = requests.get(url, headers=headers) html = etree.HTML(res.text)
2021-06-22 13:51:49 973KB 异步 数据 爬虫
1
智联招聘数据爬虫源码 网络爬虫源码 VB写的,采用Access数据库,值得学习。。。
2021-06-21 15:37:43 53KB 智联招聘 数据爬虫 源码 网络爬虫
1
手动爬取的知乎问题数据,共十万条,已做过简单清洗。 数据集格式描述如下: id | 标题 | 回答数 | 关注数 | 浏览数 | 标签 【仅供学习使用,请勿商用】
2021-06-17 22:41:32 8.93MB 数据集 大数据 爬虫 知乎
1