在线教育项目
1.dwd 数据清洗 数据脱敏 清洗规则 脱敏字段,存储基础表
2.dws 降维 对表轻度聚合 做题表 课程表 主修行业表 试卷表。
3.join 方式:Spark SQL 、DF API、DS API , RDD DF DS 三者区别 优点和劣势。
宽表:几张宽表,字段。
拉链表:缓慢变化的字段(vip等级 用户支付金额)
4.用户注册模块:统计各个平台注册人数,通过url地址跳转的注册人数,top3用户支付金额 对内分析各部门贡献程度。
做题模块:统计试卷分数、做题情况、做题难易度 对外用户。
1