总览
使用AWS EMR,Spark,PySpark,Zeppelin和Airbnb的Superset分析芝加哥市区出租车行程数据集
芝加哥市出租车旅行数据集
步骤1:数据整形/合并
分析原始数据
执行基本转换
重命名列
数据类型变更
添加新列
筛选行
筛选栏
执行基本数据处理并将Spark DataFrame保存为Parquet格式。 以下是所有转换后的Spark DataFrame模式。
root
| -- TripID: string (nullable = true)
| -- TaxiID: string (nullable = true)
| -- TripStartTS:
1