注意 自从我看这个 repo 以来已经很长时间了。 我猜它不再起作用了。 不过,修复它可能不需要太多努力。 chrome-web-store-scraper 用于抓取 chrome 网上商店的节点 js 包。 要求 该项目需要 selenium,一种 Web 浏览器自动化工具。 Selenium Standalone Server 的最新版本可以从下载。 Selenium Server 也必须作为selenium安装在系统 PATH 上。 对于 linux,包含一个selenium bash 脚本,可以与selenium.jar配对以方便使用。 npm 包有一些关于所需内容的详细信息。 Selenium设置 Selenium 服务器必须在系统路径上,因为 ' selenium ' 将其设置为与 chrome web store scraper 一起使用的最简单方法是使用chmod
2021-08-04 22:04:57 24KB JavaScript
1
discord-scraper-bot:一个有趣的机器人,可以抓取所有消息,并允许用户查询有关它的统计信息
2021-07-06 17:53:47 40KB TypeScript
1
Dayviews-Scraper 从不受密码保护的 dayviews(以前称为 bilddagboken)帐户下载所有帖子的抓取工具。 依赖关系 该脚本只有一个主要依赖项:[PhantomJS][ ]。 确保安装它,否则什么都不会运行。 安装 安装 Dayviews-Scraper 可以非常简单,也可以非常困难 - 这完全取决于您对命令行和基本系统管理工作的经验。 以下是步骤: 安装 PhantomJS。 在 Windows 上,这意味着您需要从 phantomjs.org 下载最新的可执行文件并将其添加到您的路径变量中。 在 Mac 上,只需从终端运行以下命令即可轻松完成此操作: brew update && brew install phantomjs 克隆这个 repo。 像我在下面的“用法”中告诉你的那样运行脚本。 用法 从终端运行“phantomjs scrape.j
2021-07-06 17:06:40 3KB JavaScript
1
Google 网上论坛将您的消息数据作为人质。 这是一种回收它的方法。 方法 使用 Firefox 进行页面抓取,由 Selenium-Webdriver 和精彩的 Capybara DSL 驱动。 身份验证不是自动的:切换到浏览器窗口并手动进行身份验证。 这大大简化了事情。 表现 这并不快。 Google Groups 似乎是瓶颈。 用法 将您组的索引 url 插入到 scrape.example.rb 或基于它创建您自己的脚本。
2021-07-03 18:03:27 5KB Ruby
1
mises-audiobook-scraper 下载所有 mises.org 有声读物的 Python 抓取工具
2021-07-03 18:03:24 2KB Python
1
施瓦布刮刀 这是一个基本的暴力抓取工具,用于从 Schwab.com 支票账户中获取交易数据并将输出写入 CSV。 那里有一些(当前未使用的)代码来尝试模块化(比如写入 JSON,或支持不同的 CSV 格式),但它是半生不熟的。 大多数情况下,我把它们放在一起,因为 Schwab 没有像其他银行那样有“下载为 CSV”选项,这是将他们的网站视为 API 以在我自己的个人融资应用程序中使用的良好的第一步。 用法 $ npm install $ phantomjs --ssl-protocol=any scrape.js 这会将您的交易保存到文件transactions.csv 。 查看更改“返回”日期或更改默认输出格式的代码。 您需要提供您的用户名和密码来登录您的 Schwab 帐户,但正如您在代码中看到的那样,它没有被存储(除了可能在您的终端历史记录中,因为我无法弄清楚system
2021-07-01 17:03:44 4KB JavaScript
1
雅虎财经刮板 由于Yahoo不断更改其库存平台,因此该程序无法维护并且不再有效 Yahoo Finance的股价和期权合约数据的Python抓取工具
2021-06-27 17:06:45 5KB scraper yahoo-finance Python
1
香港天文台和空气质量健康指数数据抓取工具 安装 npm install hko-scraper 用法 var scraper = require('hko-scraper'); scraper.getWeather().then(function(weather){ console.log(weather); }); 示例输出 { scrape_date: Mon Feb 16 2015 22:41:17 GMT+0800 (HKT), degrees_c: 20, humidity_pct: 90, uv_index: 2, uv_intensity: 'low', weather_condition: { number: 77, caption:
2021-06-24 17:13:39 5KB JavaScript
1
HTTP 标头分析器 使用 MongoDB 作为存储在 node.js 中编写的 HTTP 响应标头抓取器。 你不只是喜欢前沿的流行语项目吗?
2021-06-23 16:04:48 28KB JavaScript
1
免责声明 此抓取工具作为公共服务提供,因为 Glasdoor 没有用于评论的 API。 Glassdoor TOS 禁止抓取,我不保证如果您使用此程序,您的帐户将不会被禁止。 此外,如果 Glassdoor 联系我要求删除此存储库,我会立即这样做。 介绍 您是否曾经想从 Glassdoor 上抓取评论,但又为该网站缺乏用于评论的公共 API 感到遗憾? 不用担心! 该脚本将浏览一页又一页的评论,并将评论数据抓取到一个整洁的 CSV 文件中。 将其传递给公司页面,并设置刮刮最方便的25条评论的限制,或控制诸如刮擦的评论数和最大/最小评论发布日期之类的控制选项。 每条评论大约需要 1.5 秒才能抓取。 因此,抓取 1,000 条评论大约需要 25 分钟,或者抓取 10,000 条评论需要 4 多小时。 这个脚本需要耐心。 :beaming_face_with_smiling_eyes: 安装 首先,确保您使用的是 Python 3。 克隆或下载此存
2021-06-22 21:45:48 8KB Python
1