爬取结果 user.txt 是爬取的博主用户名结果, source.txt 是视频地址集 原理 根据一个热门博主的 usename, 脚本自动会获取博主转过文章的其他博主的 username,并放入爬取队列中,递归爬取。 申明 这是一个正经的爬虫(严肃脸),爬取的资源跟你第一个填入的 username 有很大关系,另外由于某些原因,导致 tumblr 被墙,所以最简单的方式就是用国外 vps 去跑。
2022-01-09 04:42:14 130KB 爬虫
1
此为以斗图网抓取图片,以多线程为基础的Python为实例
2022-01-09 04:32:50 3KB pyhon muti-thread spider
1
最近花些时间学习了一下Python,并写了一个多线程的爬虫程序来获取电影天堂上资源的迅雷下载地址,代码已经上传到GitHub上了,需要的同学可以自行下载。刚开始学习python希望可以获得宝贵的意见。   先来简单介绍一下,网络爬虫的基本实现原理吧。一个爬虫首先要给它一个起点,所以需要精心选取一些URL作为起点,然后我们的爬虫从这些起点出发,抓取并解析所抓取到的页面,将所需要的信息提取出来,同时获得的新的URL插入到队列中作为下一次爬取的起点。这样不断地循环,一直到获得你想得到的所有的信息爬虫的任务就算结束了。我们通过一张图片来看一下。   好的 下面进入正题,来讲解下程序的实现。  
2021-12-30 15:03:43 471KB python python函数 python爬虫
1
主要介绍了使用Python多线程爬虫爬取电影天堂资源 的相关资料,需要的朋友可以参考下
1
完整版基于java语言实现的广度优先算法多线程爬虫程序网络爬虫毕业设计报告共69页.rar
2021-10-01 09:04:30 973KB
Python多线程爬虫 功能描述 使用python编写一个网站爬虫程序,支持参数如下: spider.py -u url -d deep -f logfile -l loglevel(1-5) --testself -thread number --dbfile filepath --key=”HTML5” 参数说明: -u 指定爬虫开始地址 -d 指定爬虫深度 --thread 指定线程池大小,多线程爬取页面,可选参数,默认10 --dbfile 存放结果数据到指定的数据库(sqlite)文件中 --key 页面内的关键词,获取满足该关键词的网页,可选参数,默认为所有页面 -l 日志记录文件记录详细程度,数字越大记录越详细,可选参数,默认spider.log --testself 程序自测,可选参数 具体要求 指定网站爬取指定深度的页面,将包含指定关键词的页面内容存放到sqlite3数据库文件中 程序每隔10秒在屏幕上打印进度信息 支持线程池机制,并发爬取网页 代码需要详尽的注释,自己需要深刻理解该程序所涉及到的各类知识点 需要自己实现线程池 使用方法 #起始地址新浪,下载2级,使用10个线程,保存到sina.db python main.py -u http://www.sina.com.cn -d 1 --thread 10 --dbfile sina.db
2021-09-26 23:18:39 33KB 爬虫 多线程
1
多线程爬虫源码
2021-08-23 13:13:35 36KB 多线程爬虫源码
多线程爬图片
2021-08-22 22:13:11 2KB 源代码
1
TiktokCrawler抖音爬虫(无/去掉水印),多线程爬虫+ JS逆向 项目普及技术:JS逆向(调用JS文件),抖音的一些接口加密,多线程操作,某些Linux命令操作(可在Win或Linux运行) 请在Python3下运行(版本太低可能会出现不兼容,本人用的是3.7版本) 这是一个的脚本,配置运行后可以下载指定分享视频,指定抖音用户的全部视频(含收藏夹),也可以下载指定主题(挑战)或音乐下的全部视频。 注意 这是一个练手项目,源码仅作为和大家一起学习的Python使用,你可以免费:拷贝,分发和派生当前源码(最后最好添加一些自己的见解)但你不可以用于商业目的及其他恶意用途。 服务端对抓取的一些限制,如抓取频率,IP等,如果你遇到了这样的问题,可能你的下载量已经超过了学习目的,从而我也拒绝支持并表示非常抱歉。 环境安装 首先,配置好你的Python,node环境 本人用的是pipenv虚拟
2021-07-06 17:34:12 174KB Python
1
### 知乎回答多线程爬虫 **模式** 1. 单问题爬取模式 2. 相似问题爬取模式 **输出** ​ **文件名** 问题题目 ​ **文件内容** 1. 问题 2. 问题id 3. 回答者昵称 4. 回答者空间id 5. 回答者id 6. 回答者内容 **单问题爬取模式** **功能** 主要通过用户提供的问题id,爬取单个问题下的所有回答 **相似问题爬取模式** **功能** 通过用户提供的起始问题id,以及相关内容爬取数量,利用知乎的**相关问题**进行自动检索,并不断递归至用户提供的爬取数量(默认数量为20)。 **bug** 由于知乎具有一定的反爬,所以在相似问题检索时最大的检索量为400,如果到达500就会触发反爬机制,需要用户填写一个验证码才可以继续爬取。(也许未来有时间的话会把获取验证码的部分代码补全,但具体机器打码的实现还是太难了,所以还得自己手动输入验证码) **优点** 简单,明了,使用requests库进行爬取,利用递归实现迭代检索,代码量不大。 **缺点** 功能较少,对线程的把握不够好,可能会出现数据少量缺失的情况。 **技术栈:** 1. requests 2. re 3. json 4. time 5. threading **未来** 关于知乎的爬取,我这里还有一个存货——爬取知乎文章中的表情包(gif,png,jpg),这样就可以愉快的收集表情包了。同时我也尝试着去做了一下对知乎用户数据的爬取,但还为成功。
2021-06-22 10:03:31 4KB 知乎