简介
本项目通过淘宝用户数据集进行统计分析
使用技术
Hadoop、Hive、Spark、Hbase、python matplotlib(数据展示)
数据来源
本数据集包含了2017年11月25日至2017年12月3日之间,有行为的约一百万随机用户的所有行为(行为包括点击、购买、加购、喜欢)。数据集的组织形式和MovieLens-20M类似,即数据集的每一行表示一条用户行为,由用户ID、商品ID、商品类目ID、行为类型和时间戳组成,并以逗号分隔
数据量
原始csv文件2.05G
所有行为数量 100,150,807
操作流程
数据集下载
创建hive表
create table user_behaviors(userId int,itemId int,categoryId int,behaviorType string,times string)
row format delimited
2021-10-28 19:40:41
473KB
Scala
1