pyspark常用操作梳理
基于spark.sql进行操作
创建临时表
创建临时视图
基于dataframe进行操作
了解表结构
查看数据
查看列名
持久化
列操作
列名称重命名
条件筛选
利用when做条件判断
利用between做多条件判断
in数据判断
数据去重
分组统计
生成索引
数据整形
列转行
行转列
数理统计
描述性统计
统计频数
统计四分位数
分组统计
统计相关系数
统计协方差
随机抽样
自定义统计
udf操作
数据关联
横向拼接
左连接
多字段连接
通过pandas dataframe进行转换
利用pandas取差集、交集和并集
1