基于Hadoop部署实践对网站日志分析
1. 项目概述
本次要实践的数据日志来源于国内某技术学习论坛,该论坛由某培训机构主办,汇聚了众多技术学习者,每天都有人发帖、回帖。至此,我们通过Python网络爬虫手段进行数据抓取,将我们网站数据(2013-05-30,2013-05-31)保存为两个日志文件,由于文件大小超出我们一般的分析工具处理的范围,故借助Hadoop来完成本次的实践。
2. 总体设计
2.1 Hadoop插件安装及部署
第一步:Hadoop环境部署和源数据准备
安装好VMware(查看)
第二步:使用python开发的mapper reducer进行数据处理。
第三步:创建hive数据库,将处理的数据导入hive数据库
第四步:将分析数据导入mysql
3. 详细实现步骤操作纪要
3.1 hadoop环境准备
首先开启Hadoop集群:start-all.sh:开启所有的Hadoop所有进程,在主节点上进行
NameNode它是Hadoop 中的主服务器,管理文件系统名称空间和对集群中存储的文件的访问。
Secondary NameNode.....