基于搜狗查询数据500w条使用MapReduce做数据清洗,hive做离线分析的项目,详细文档附数据连接,搜狗实验室的搜索数据下载后缺少了用户ID字段的数据,所以本分析采用的是完整的数据,大家可以放心下载,如果下载数据的百度云链接失效无法下载,大家可以给我留言。
2020-01-04 03:14:55 3.28MB hive hadoop MapReduce 大数据离线分析项目
1
NULL 博文链接:https://superlxw1234.iteye.com/blog/1586377
2020-01-03 11:39:22 19KB 源码 工具
1
该文档详细的介绍了hive的命令操作,从增删改查等方面进行整理,同时还有补充的一些命令操作。
2020-01-03 11:35:27 13KB 大数据
1
关于大数据测试方法的总结,包括稳定性测试、性能测试、数据准确性测试的方法
2020-01-03 11:34:34 5KB bigdata hive test
1
hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。
2019-12-24 03:17:33 142.82MB apache-hive
1
apache hive 2.3.4版本,开源.
2019-12-22 20:01:21 221.48MB hive 开源
1
Centos 7安装配置Hadoop生态圈CDH5版本 其中包括hadoop hbase hive spark 等组件安装
2019-12-21 22:18:46 8.14MB hadoop spark hive hbase
1
由于公司要把oracle 数据库迁移到hive ,hbase 环境,特建议使用kettle做数据迁移,调试3个小时,终于调试成功,顺手写了个配置文档。
2019-12-21 22:11:57 377KB kettle ,oracle12c >hive
1
windows10下安装hive2.3.3的时候,无法执行hive命令,原因是官方下载文件中缺少可执行文件(好多个cmd文件),安装的时候无法执行成功。下载后,解压替换hive的bin目录即可执行成功。
2019-12-21 22:09:24 20KB hive
1
hadoop hive 编程 指南 中文 pdf hadoop hive 编程 指南 中文 pdf
2019-12-21 22:09:16 26.56MB hive 编程 指南 中文
1