选题:搜狗日志查询分析 (MapReduce+Hive综合实验)
前提条件:
安装好hadoop2.8.0
安装好HQL
安装好Hive
安装好eclipse
选题要求:
解压数据源,并上传到hdfs,保存的目录以个人学号区分,176为我的学号
创建hive表
编写MapReduce程序实现数据清洗,去掉不满足长度为6,并保证输出数据以 ','分割
将清洗后的数据导入Hive
使用SQL查询搜索结果排名第2点,点击次序排在第1的数据
实验步骤:
思路:用MapReduce做数据清洗,用Hive来分析数据。
1