GDELT数据采集
一个简单的Python脚本即可从(该数据集是理解全球人类社会的最大的开放数据集)中获取数据的,它用152种语言提供了跨越200年的总计8.1万亿个数据点。
事件数据库包含超过25亿条记录,这些记录按数据组织成一组由制表符分隔的文件。 到2013年3月31日,记录将在活动发生之日以月度和年度文件存储。 从2013年4月1日开始,每天都会创建文件,并按照事件在世界新闻媒体中发现的日期(而不是事件发生的日期)存储记录。
我们的重点是该数据库的1.0版,该数据库每天都会在更新为一个新条目。
描述
该脚本从GDELT项目事件数据库v1.0原始数据中提取事件的数据集,并使用CAMEO分类法按所需事件类型进行过滤,并使用FIPS 10-4国家/地区代码对所需采取行动的国家/地区进行过滤。 给定的输出是一个逗号分隔的值文件,其中包含给定事件和国家集的已标识事件。
依存关系
该脚本在
1