##QQSpider1:## 详情请见博客: 《QQ空间爬虫分享(一天可抓取 400 万条数据) 》 如果出现报错: Traceback (most recent call last): File ".\init.py", line 20, in my_messages.backups() # 备份爬虫信息 NameError: name 'my_messages' is not defined 多半的原因是 BitVector 模块用不了,可自行调试。 如果确定是BitVector用不了的话可以用 "BitVector模块报错解决" 里面的两个文件替换掉原有文件,不使用BitVector判重,改用python的list判重(数据量不大的话效果是一样的)。 ------------------------------------------------------- 分界线 ------------------------------------------------------- ##**QQSpider2:**## 更新后的版本,详情请见博客: [《QQ空间爬虫分享(2016年11月18日更新)》](http://blog.csdn.net/Bone_ACE/article/details/53213779) 有同学反映,爬QQ空间的很多都是学生想爬一些数据做统计研究的,本不是计算机专业,爬起来比较困难,希望有现成的数据出售。但是因为工作变动,其实今年3月份 程序开发完后我就没有跑过了,所以手上也没有数据。不过接下来我会开一两台机器跑这个爬虫,如果需要数据可以邮件联系我(bone_ace@163.com)。 遇到什么问题请尽量留言,方便后来遇到同样问题的同学查看
2022-12-03 15:02:50 44KB python 爬虫
1
博文对应的代码 https://blog.csdn.net/efine_dxq/article/details/90736671
2022-12-02 21:29:20 154KB python3爬虫 urllib beautifulsoup4
1
中文分词: 自然语言理解和处理,是人工智能的重要的研究领域之一,是语言学、逻辑学、生理学、心理学、计算机科学和数学等相关学科发展和结合而形成的一门交叉学科。 分词作为搜索引擎的一项核心功能,和存储和查询有重大关系。但是不同的研究角度,不同的研究方向,带来研究重点和研究结果都是不一样的。 语言学方向研究的分词算法,看重分词的准确性,不看重运算速度;而搜索引擎的分次算法,特别看重分词速度,分词准确性中等。 (五)全文检索系统和搜索引擎关系: 1、搜索引擎技术来源于全文检索系统,搜索引擎是全文检索技术最重要的一个运用. 2、搜索引擎在数据总量,最大并发处理能力,单次查询速度方面,都远远强大于全文检索系统. 3、搜索引擎为了最求最高的查询速度,在搜索结果准确性及搜索结果重现方面,都弱于全文检索系统.
2022-12-02 19:52:14 1.26MB 中文分词 Cache Server 爬虫
1
使用jsoup做的java爬虫, 登录自己的天眼查账号, 爬取公司详细数. 不足: 大概执行100次请求之后会被识别为机器人.
2022-12-02 15:23:03 26KB java 爬虫 天眼查
1
python爬取c罗(也可爬取其他运动员)数据,绘制数据散点图,加上文本和图片信息生成可视化图表。
2022-12-02 10:54:55 3.87MB 爬虫 python c语言 开发语言
利用python爬虫技术开发的成语接龙小游戏,可随机取汉字从在线成语网站中查找成语,实现人与电脑对弈,能够统计分值,适用于中小学生熟悉成语。
2022-12-01 19:46:31 18.8MB python 爬虫 成语接龙 小游戏
1
基于浏览器爬虫golang开发的web漏洞主动(被动)扫描器.zip
2022-12-01 15:17:55 298KB golang
主要介绍了python爬虫的数据库连接问题,非常不错,具有一定的参考借鉴价值,需要的朋友可以参考下
2022-11-30 22:03:29 236KB python 爬虫数据库 python 数据库连接
1
爬虫代码,数据集寻找加自动分类,训练集,测试集自动生成!下载就可用,python
2022-11-30 21:27:29 2KB 深度学习
1
《Python网络爬虫技术》源数据和代码非常适合初学者,想学习攻防的同学学习,资料齐全详细哦
2022-11-29 16:38:01 2.29MB 爬虫技术实战
1