上传者: 42127775
|
上传时间: 2021-10-28 16:30:44
|
文件大小: 5KB
|
文件类型: -
Crunchbase 爬虫
一个 python 脚本,用于通过 .
所有逗号字符都被替换为||| (三重管道)以便转义 csv 文件中的数据。
应该修改变量user_key以便以正确的方式调用 Crunchbase 的 API。 此外,还可以使用变量starting_page配置爬虫的起始页,并使用order对结果进行order ,这允许在两个方向上横向数据集(从最新到最旧,反之亦然)。
初始设置
建议使用下一个配置开始运行脚本:
user_key =
starting_page = 0
order = 'ASC'
这将开始检索从最旧的修改项目到最新的信息。 由于 Crunchbase 中的数据集非常大(380000 个组织和计数),从头开始检索所有内容需要一段时间(考虑到 API 软上限)。
Crunchbase API 上限
每月 25000