前言        本来将数据导入到hive,但是不知道什么原因太慢了,一小时200条数据,优化一波kettle,还是成效不大,因此改为借用hadoop file output 到hdfs,然后再load 到hive表里 一,正文 1.在转换里拖入big data/hadoop file output      新建hadoop cluster连接      从集群里下载core-site.xml,hdfs-site.xml,yarn-site.xml,mapred-site.xml      覆盖kettle的plugins\pentaho-big-data-plugin\hadoop-co
2022-01-28 15:52:57 180KB hadoop hive iv
1
启动大数据框架常用命令
2022-01-25 09:13:14 8KB hive kafka big data
1
Linux 搭建Hive链接mysql教程 适用搭建hadoop,配置环境使用
2022-01-05 18:00:38 622.61MB hadoop hive hdfs linux
1
CDH6.3.2所有安装包+配套博客教程地址
2021-12-20 15:08:40 201B cdh hadoop hive mysql
大数据练手项目——Youtube数据源
2021-12-15 16:33:02 120.9MB hadoop hive youtube data
1
网站点击流数据分析项目,用户访问网站时的所有访问、浏览、点击行为数据。比如点击了哪一个链接,在哪个网页停留时间最多,采用了哪个搜索项、总体浏览时间等。而所有这些信息都可被保存在网站日志中。通过分析这些数据,可以获知许多对网站运营至关重要的信息。采集的数据越全面,分析就能越精准。
2021-12-07 10:19:34 41.77MB hadoop hive flume sqoop
1
目录 一、Kettle整合Hadoop 1、 整合步骤 2、Hadoop file input组件 3、Hadoop file output组件 二、Kettle整合Hive 1、初始化数据 2、 kettle与Hive 整合配置 3、从hive 中读取数据 4、把数据保存到hive数据库 5、Hadoop Copy Files组件 6、执行Hive的HiveSQL语句 三、Kettle整合HBase 1、HBase初始化 2. HBase input组件 3、HBase output组件 一、Kettle整合Hadoop 环境  kettle 8.2 版本: kettle国内镜像下载地址:h
2021-11-29 16:17:07 781KB AS do hadoop
1
林子雨Hive数据集下载
2021-11-26 09:03:35 18.53MB hadoop hive
1
包括Hadoop、Hive、Hbase、Java、Spring、Redis、Kafka等内容
2021-11-24 17:08:28 10.21MB Hadoop Hive Hbase Redis
1
集群硬件配置 在集群中,大部分的机器设备是作为Datanode和TaskTracker工作的Datanode/TaskTracker的硬件规格可以采用以下方案: 16-24GB内存 千兆以太网 NameNode提供整个HDFS文件系统的NameSpace(命名空间)管理、块管理等所有服务,因此需要更多的RAM,与集群中的数据块数量相对应,并且需要优化RAM的内存通道带宽,采用双通道或三通道以上内存。硬件规格可以采用以下方案: 16-72GB内存 千兆/万兆以太网 SecondaryNameNode在小型集群中可以和NameNode共用一台机器,较大的群集可以采用与NameNode相同的硬件
2021-11-13 21:10:47 3.06MB Hadoop Hive Spark Hbase
1