1.自动支持cookie.只要你创建一个http类的实例,你就可以像使用浏览器一样很容易的使用它,不需要额外的配置,直接支持cookie. 2.支持页面压缩及分段输出.有些网页抓取时可能会返回gzip压缩后的数据.本类库将自动识别并解码. 3.支持提交表单数据.简单易懂的接口,一看就懂,提交表单,最多两行就搞定. 4.支持文件上传. 5.突破防采集.行为与主流浏览器几乎无差别,突破防采集只需要你改一下USER-AGENT即可搞定.
2023-10-28 09:03:04 7KB php cookie 抓取 curl snoopy
1
自己做的一个网上资源抓取工具供大家学习,学习原理之后,可以抓取任何形式的网上资源。资源抓取自动插入数据库。
1
学习用的,python写的多线程抓取代理服务器,保存,验证程序-烤火C知识网
1
一个针对php的web流量抓取、分析的应用。 可供ctf线下赛使用,也可用于实际场景来抓web流量、分析攻击手段。 目前主要功能如下: 完整http报文请求抓取,同时进行对可能存在的攻击进行分类,通过文件存储模拟出数据库,适应各种场合。 根据hash判断流量是否重复,只记录次数和最新一次的请求包,减少存储空间的占用以及流量分析的成本。 4个waf等级,推荐使用1等级,不会影响应用的正常运行,还可以抵御绝大多数的常见攻击。 设置flag获取命令,通过分析页面返回判断是否被读取了flag,从而替换掉flag(有些场合可能无法使用),将此流量标记为危险流量,同时攻击者ip加入黑名单,永 久ban掉(可从黑名单去除)。 黑白名单模式,可以手动添加,选择白名单模式,则服务正常通过给白名单机器,其他机器全部拦截。 可根据ip、时间筛选出想要查看的对应日志。 通过分析是否为危险流量,统计相同流量出现次数
2023-09-14 06:45:59 405KB ctf ctf-tools weblogger PHP
1
从Indeed刮取工作 该代码的目的 我为旧金山大学管理学院的一个项目编写了此代码。 该代码的目的是能够获取一个数据集,该数据集捕获来自Indeed的不同职位,可以对其进行分析以了解职位市场需求,职位,技能,行业和位置。 代码结构 导入所需的软件包。 加载作为代码输入的CSV文件,这些文件包含作业搜索和您在每个作业中寻找的关键字。 第1阶段-搜寻工作链接:此代码将创建所有工作搜索的数据集,并提供每个工作的链接。 第2阶段-删除职位的正文:此代码将在创建的数据集中提取每个职位的正文。 第3阶段-文本挖掘职位的正文:此代码将查找所需的关键字以及每项工作所需的最少年限。 阶段4-为工作分类:此代码将工作分为以下几类:工作名称,业务职能/部门和城市。 如何处理搜索和关键字CSV文件 这些文件充当代码的输入,从而使您可以根据需要更轻松地进行编辑。 在运行python代码之前,您应根据需要
2023-09-08 20:15:57 14KB data-science text-mining pandas-dataframe jobs
1
从网页的选定内容中提取网址,并将其复制到剪贴板 从网页的选定内容中提取URL,并将其复制到剪贴板 支持语言:English
2023-05-06 19:12:44 184KB 生产工具
1
主要介绍了Python多进程方式抓取基金网站内容的方法,结合实例形式分析了Python多进程抓取网站内容相关实现技巧与操作注意事项,需要的朋友可以参考下
2023-05-06 14:46:51 51KB Python 多进程 抓取 基金网站内容
1
python抓取网页标题信息 适合新手联系 newsurl请自行搜索。或者私信作者
2023-04-18 12:36:28 6KB python
1
烧瓶嗖嗖嗖嗖 一个简单的 python Flask 应用程序,它运行一个数据抓取器和一个 Whoosh 搜索引擎实现。 我写这篇文章主要是为了从 RSS 提要中抓取财经新闻(标题、出版日期时间、简要摘要),并将数据索引到 Whoosh 搜索引擎中。 只是一个尝试新事物的小爱好项目。 先决条件 BeautifulSoup - 烧瓶 - Whoosh - 以上所有都可以通过pip安装。 例如。 'pip 安装 Whoosh' 指示 1.安装需要的依赖2.添加你想抓取的RSS提要的url,即。 第 85 行,server.py。 请注意,您可能必须更改 scrape() 以迎合特定 RSS 提要的 XML 3. 使用“python server.py”运行服务器。 Flask 的默认端口为 5000 数据应该被抓取和索引,新文件将被添加到“/data”文件夹 用法 1. 要搜索特定术语,请
2023-04-12 22:45:09 35KB Python
1
MTK 抓取和解析ModemLog的PC端工具, 经常使用来查看ModemLog modem
2023-04-06 20:15:49 7.77MB 调试 log
1