玛拉示例项目
一个可运行的应用程序,演示了如何使用mara构建数据仓库。 将库和库与框架结合到一个项目中。
示例ETL将PyPi下载统计信息和GitHub回购活动度量标准集成到了更通用的Python项目活动统计信息中。
该存储库旨在用作新项目的模板。
示例:Python项目统计
该项目使用两个数据源:
在 (需要Google登录)上BigQuery数据集。 它包含每个单独的软件包下载以及项目和客户端属性。
BigQuery资料集位于 。 它几乎包含所有发生在Github存储库中的事件。
从两个数据源中,使用的查询以增量方式下载一组预先聚合和过滤的CSV:
$ gunzip --decompress --stdout data/2018/04/10/pypi/downloads-v1.csv.gz | grep " \tflask\t\|day_id " | head -n 11
day_id project project_version python_version installer number_of_downloads
20180410 flask 0.1 ban
1