基于Hadoop的hive数据库的网站流量日志数据分析系统项目源码.zip 已获导师指导并通过的高分项目。下载即用,内附说明。项目背景
1、项目名
“网站流量日志数据分析系统”
2、概念
a、点击流
点击流(Click Stream)是指用户在网站上持续访问的轨迹,形成点击事件,它会记录用户浏览站点的整个过程。
image-20211123085322048
二、日志数据的数据格式
image-20211123090020444
页面点击流数据
image-20211123091013446
点击流模型Visits表
image-20211123091120698
三、骨灰级指标
1、IP
1天之内,不重复的ip数,统计ip数
2、PV
页面加载的总次数
3、UV
1天之内,访问网站的不重复用户数(以浏览器cookie为依据),一天内同一访客多次访问网站只被计算1次。
四、整体技术架构流程
1、数据采集
2、数据预处理
3、数据入库
4、数据分析
5、数据展示
image-20211201143716799
image-20211123114258257
五、技术分析