目录 一、Kettle整合Hadoop 1、 整合步骤 2、Hadoop file input组件 3、Hadoop file output组件 二、Kettle整合Hive 1、初始化数据 2、 kettle与Hive 整合配置 3、从hive 中读取数据 4、把数据保存到hive数据库 5、Hadoop Copy Files组件 6、执行Hive的HiveSQL语句 三、Kettle整合HBase 1、HBase初始化 2. HBase input组件 3、HBase output组件 一、Kettle整合Hadoop 环境  kettle 8.2 版本: kettle国内镜像下载地址:h
2021-11-29 16:17:07 781KB AS do hadoop
1
林子雨Hive数据集下载
2021-11-26 09:03:35 18.53MB hadoop hive
1
包括Hadoop、Hive、Hbase、Java、Spring、Redis、Kafka等内容
2021-11-24 17:08:28 10.21MB Hadoop Hive Hbase Redis
1
集群硬件配置 在集群中,大部分的机器设备是作为Datanode和TaskTracker工作的Datanode/TaskTracker的硬件规格可以采用以下方案: 16-24GB内存 千兆以太网 NameNode提供整个HDFS文件系统的NameSpace(命名空间)管理、块管理等所有服务,因此需要更多的RAM,与集群中的数据块数量相对应,并且需要优化RAM的内存通道带宽,采用双通道或三通道以上内存。硬件规格可以采用以下方案: 16-72GB内存 千兆/万兆以太网 SecondaryNameNode在小型集群中可以和NameNode共用一台机器,较大的群集可以采用与NameNode相同的硬件
2021-11-13 21:10:47 3.06MB Hadoop Hive Spark Hbase
1
见面会 搜索数据集: : MovieLens: :
2021-11-11 10:22:16 1.5MB Python
1
一、Hive简介 1.什么是Hive Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能(HQL); 其本质是将SQL转换为MapReduce的任务进行运算,底层由HDFS来提供数据的存储,hive可以理解为一个将SQL转换为MapReduce的任务的工具 2.Hive的特点 可扩展 Hive可以自由的扩展集群的规模,一般情况下不需要重启服务 延展性 Hive支持用户自定义函数,用户可以根据自己的需求来实现自己的函数 容错 良好的容错性,节点出现问题SQL仍可完成执行 3.Hive与传统数据库的对比图 4.Hiv
2021-11-10 15:39:31 153KB do hadoop hive
1
一个WordCount执行过程的实例 Map过程示意图
2021-11-08 20:01:02 3.06MB Hadoop Hive Spark Hbase
1
MartinHub的学习笔记 关于我 MartinHub :smiling_face_with_sunglasses: ,,热爱生活!热爱技术! 微信公众号【MartinHub】 个人微信号【MartinHub】 项目介绍 大数据 Java 数据库 Linux 杂记 :bullseye: :hot_beverage: :floppy_disk: :cloud: :memo: :black_nib:本仓库有来源自己总结,网上收集,视频笔记,如果有区别之处,可以联系我进行删除。 :scroll:笔记仓库: GitHub上: Gitee: :scroll:笔记地址: GitHub上: Gitee: 因个人能力有限,笔记中可能还有很多错误的地方,还请大家能够多多指出交流,也欢迎各位小伙伴能够提交拉请求请求进行完善。 注意:因为构建页面的框架缓存,访问笔记地址时,为防止最新更新的笔记看不到,请浏览器打开网址后,先清除页面缓存。
2021-10-30 16:21:25 18MB HTML
1
etl-kettle-web etl, kettle, web, 1、参考了: 2、基于该项目,将kettle的web网页版本升级为springboot工程。 3、欢迎有兴趣的小伙伴,一起讲前端改造成vue.js 4、有兴趣的也可以直接修改并提交代码,或联系qq:406419768
2021-10-22 10:40:45 4.3MB Java
1
大数据时代数据资产管理“五星模型”.docx 大数据时代数据资产管理“五星模型”.docx
2021-10-12 13:32:59 1.11MB Hadoop Hive
1