#google_search ##作用:利用python selenium模块来爬取谷歌搜索结果,在源代码的基础上做了些修改
##相关文件说明:
google-web-search.py:从Google抓取某个关键字的所有结果,以“ [debug]标题”;链接”显示,以一条链接一行的格式保存。
google-web-search-state-crawler.py:从Google抓取某个关键字的结果数,即提取类似“找到约1,130,000条结果”中的数字。#没试过
result-crawler.py:从Google返回的结果链接中抓取文本。注意只会处理网页和pdf文件。(pdf的下载处理貌似有点问题,可能需要再改一下。)#没试过
##使用方法:
#使用python2 + selenium + firefox profile 实现的随机user agent 模拟抓取Google搜索结
2021-09-23 11:20:15
4.14MB
系统开源
1