密室履带 CS 246 最终项目 - 简化的类 Rogue 游戏
2021-11-25 12:48:24 5.1MB game rogue-like C++
1
WPF-Automatic-Crawler 这是一款带UI界面的自动化采集爬虫,内部使用了WebKit浏览器内核,以实现对Ajax动态加载数据的采集。整个软件采用策略设计模式,可非常灵活的通过编写多个策略类来定义数据的抓取方式及内容。
2021-11-24 12:37:44 150KB
1
基于Python的新浪微博数据爬虫_周中华基于Python的新浪微博数据爬虫_周中华
2021-11-20 21:05:23 138KB python crawler
1
刮擦 是一个框架,用于根据基于键值的配置文件创建Web爬虫和Web爬虫。 它提供了一个命令行界面来在给定的基于JSON的配置输入上运行脚本,以及一个Web界面来提供必要的输入。 Scrapple的主要目标是抽象设计Web内容提取器的过程。 重点放在要提取的内容上,而不是如何去做。 用户指定的配置文件包含选择器表达式(XPath表达式或CSS选择器)和要选择的属性。 Scrapple完成了运行此提取器的工作,而用户无需担心编写程序。 Scrapple也可以用于生成实现所需提取器的Python脚本。 安装 您可以使用以下方法安装Scrapple $ sudo apt-get install libxml2-dev libxslt-dev python-dev lib32z1-dev $ pip install scrapple 否则,您可以克隆此存储库并安装软件包。 $ git clo
2021-11-18 16:07:38 545KB python crawler tutorial extractor
1
介绍 一个可视化的爬虫平台。以流程图的方式配置爬虫,基本上无需编写代码即可完成工作。 本项目源自开源项目 ,本着学习的目的,在它的基础上进行了重构,修复了一些问题,并增加了一些新的功能。 特性 支持 xpath 和 css 选择器 支持选择器提取、正则提取、json 提取等 支持 Cookie 自动管理 支持抓取由 js 动态渲染的页面 支持代理 支持多数据源 内置常用的字符串、日期、文件、加解密等函数 支持结果保存至多目的地(数据库、csv 文件等) 支持插件扩展(自定义执行器,自定义函数等) 支持任务日志 支持爬虫可视化调试 新增的特性: 采用内置数据库 ,做到开箱即用 支持同步执行,对于执行结果有顺序要求的可以使用该功能 增加随机 User-Agent(数据来自: ) 增加代理的管理界面,方便进行代理的手工添加(不推荐)和启动代理的自动管理功能 增加身份认证机制,默认账号和密码都
2021-11-17 10:45:33 2.53MB crawler spider websocket visual-crawler
1
crawler-order.zip
2021-11-16 15:01:36 344KB chrome插件
1
天猫商品爬虫 介绍 爬虫用于抓取商品信息 要求 sudo pip install beautifulsoup sudo pip install requests 配置 config.txt 中的字段: max:您想要抓取的最大商品数量。 由于天猫的限制,上限是6000,如果想获取更多的商品信息,稍微修改一下源码。 关键字:商品的关键字,目前只支持一个关键字。 用法 python main.py 结果会保存在当前目录下的record[mmddhhMMss].txt中
2021-11-10 19:57:47 3KB Python
1
leetcode题库 leetcode-crawler 概述 爬取 LeetCode 题目及提交的 AC 代码的工具,存入到本地 Sqlite 数据库中,并支持生成相应的 README.md 文件。支持爬取指定状态、难度以及标签的题目以及 AC 代码。 运行环境 基于 Python3 运行,依赖 Python 库: requests requests_toolbelt html2text 使用说明 positional arguments: output optional arguments: -h, --help show this help message and exit -d {Easy,Medium,Hard} [{Easy,Medium,Hard} ...], --difficulty {Easy,Medium,Hard} [{Easy,Medium,Hard} ...] Specify the difficulty. If not specified, all problems will be grasped. -t TAGS [TAGS ...], --tags TAG
2021-11-10 01:36:46 221KB 系统开源
1
sse_crawler 上海证券交易所XBRL数据的搜寻器 JSON结构(results / data.json): (最高层):[公司,公司,...] 公司:{'id': stock_id ,'shortname': short_company_name ,'data': data } 数据:[ section_data , section_data ,...] 有6个部分(请参见sections.py ) section_data :[ data_field , data_field ,...] 每个data_field的标题都可以在sections.py找到 每个部分都有不同的数据字段 如果某个部分的数据不可用,section_data = [] data_field :[入口,入口,...] 条目:[年份,数据值] gencsv.py从JSON文件中提取了resu
2021-11-02 16:02:26 7.81MB Python
1
Crunchbase 爬虫 一个 python 脚本,用于通过 . 所有逗号字符都被替换为||| (三重管道)以便转义 csv 文件中的数据。 应该修改变量user_key以便以正确的方式调用 Crunchbase 的 API。 此外,还可以使用变量starting_page配置爬虫的起始页,并使用order对结果进行order ,这允许在两个方向上横向数据集(从最新到最旧,反之亦然)。 初始设置 建议使用下一个配置开始运行脚本: user_key = starting_page = 0 order = 'ASC' 这将开始检索从最旧的修改项目到最新的信息。 由于 Crunchbase 中的数据集非常大(380000 个组织和计数),从头开始检索所有内容需要一段时间(考虑到 API 软上限)。 Crunchbase API 上限 每月 25000
2021-10-28 16:30:44 5KB Python
1