本实验涉及数据预处理、存储、查询和可视化分析等数据处理全流程所涉及的各种典型操作,涵盖Linux、MySQL、Hadoop、Hive、Sqoop、Eclipse、ECharts、Spark等系统和软件的安装和使用方法。淘宝购物行为数据集共有5000万条记录,本实验选取的数据集为:第4350万-4500万行,共150万条数据。
首先,实验将本地数据集上传到数据仓库Hive,然后在Hive数据仓库下进行数据分析,接着本实验将数据从Hive导入到MySQL,利用Spark预测回头客行为,最后本实验利用ECharts在eclipse IDE 下进行数据可视化分析,得出了所有买家各消费行为对比、男女买家交易对比、男女买家各个年龄段的交易对比、商品类别交易额对比、各省份的销量对比,这些数据分析结果将有助于淘宝在下一阶段计划制定提供参考。
大学大数据应用,淘宝双11数据;数据分析;Spark;可视化分析,含论文
1