大数据运维技术第16章 大数据平台及组件安装部署课件.pptx
2022-06-22 11:05:21 541KB 大数据
大数据运维技术第15章 告警和日志信息监控课件.pptx
2022-06-22 11:05:21 847KB 大数据
大数据运维技术第14章 大数据平台监控界面和报表课件.pptx
2022-06-22 11:05:19 668KB 大数据
大数据运维技术第13章 大数据平台监控命令课件.pptx
2022-06-22 11:05:19 635KB 大数据
大数据运维技术第10章 Flume组件安装配置课件.pptx
2022-06-22 11:05:18 862KB 大数据
Sqoop相关知识; 多数使用Hadoop技术处理大数据业务的企业,有大量的数据存储在关系型数据中。由于没有工具支持,Hadoop和关系型数据库之间的数据传输是很困难的事情。传统的应用程序管理系统,即应用程序与使用RDBMS的关系数据库的交互,是产生大数据的来源之一。由RDBMS生成的这种大数据存储在关系数据库结构中的关系数据库服务器中。 当大数据存储和Hadoop生态系统的MapReduce,Hive,HBase等分析器出现时,他们需要一种工具来与关系数据库服务器进行交互,以导入和导出驻留在其中的大数据。Sqoop在Hadoop生态系统中占据一席之地,为关系数据库服务器和Hadoop的HDFS之间提供了可行的交互。; Sqoop是一个用于在Hadoop和关系数据库服务器之间传输数据的工具。它用于从关系数据库(如MySQL,Oracle)导入数据到Hadoop HDFS,并从Hadoop文件系统导出到关系数据库。Sqoop由Apache软件基金会提供。;9.2 Sqoop功能应用;9.2.1 Sqoop架构;;;;9.2.2 Sqoop导入原理; JDBC的ResultSet接口提供了
2022-06-22 11:05:18 1.31MB 大数据
ZooKeeper相关知识; 会话(Session):Session指的是ZooKeeper服务器与客户端会话。在ZooKeeper中,一个客户端连接是指客户端和服务器之间的一个TCP长连接。客户端启动的时候,首先会与服务器建立一个TCP连接,从第一次连接建立开始,客户端会话的生命周期也开始了。通过这个连接,客户端能够通过心跳检测与服务器保持有效的会话,也能够向ZooKeeper服务器发送请求并接受响应,同时还能够通过该连接接收来自服务器的Watch事件通知。Session的sessionTimeout值用来设置一个客户端会话的超时时间。当由于服务器压力太大、网络故障或是客户端主动断开连接等各种原因导致客户端连接断开时,只要在sessionTimeout规定的时间内能够重新连接上集群中任意一台服务器,那么之前创建的会话仍然有效。在为客户端创建会话之前,服务端首先会为每个客户端都分配一个sessionID。由sessionID是ZooKeeper会话的一个重要标识,许多与会话相关的运行机制都是基于这个sessionID的,因此,无论是哪台服务器为客户端分配的sessionID,都务必保证
2022-06-22 11:05:17 1.06MB 大数据
HBase相关知识;7.1 HBase相关知识;7.1 HBase相关知识;7.1 HBase相关知识;7.2 HBase功能应用; HBase的架构是依托于Hadoop的HDFS作为最基本存储基础单元,在HBase的集群中由一个Master主节点管理多个RegionServer,而ZooKeeper进行协调操作。 HBase的体系结构是一个主从式的结构,主节点HMaster在整个集群当中只有一个在运行,从节点HRegionServer有很多个在运行,主节点HMaster与从节点HRegionServer实际上指的是不同的物理服务器,即有一个服务器上面跑的进程是HMaster,很多服务器上面跑的进程是HRegionServer,HMaster没有单点问题,HBase集群当中可以启动多个HMaster,但是通过ZooKeeper的事件处理机制保证整个集群当中只有一个HMaster在运行。既然HBase是数据库,那么数据库从根本上来说就是存储表Table的,但是必须注意HBase并非是传统的关系型数据库(例如:MySQL、Oracle),而是非关系型数据库,因为HBase是一个面向列的分布
2022-06-22 11:05:16 1.32MB 大数据 HBase
Hive相关知识; Hive是基于Hadoop的数据仓库工具,可以用来对HDFS中存储的数据进行查询和分析。Hive能够将HDFS上结构化的数据文件映射为数据库表,并提供SQL查询功能,将SQL语句转变成MapReduce任务来执行。Hive通过简单的SQL语句实现快速调用MapReduce机制进行数据统计分析,因此不必专门开发MapReduce应用程序即可实现大数据分析。 Hive对存储在HDFS中的数据进行分析和管理,它可以将结构化的数据文件映射为一张数据库表,通过SQL查询分析需要的内容,查询Hive使用的SQL语句简称Hive SQL(HQL)。Hive的运行机制??不熟悉MapReduce的用户也能很方便地利用SQL语言对数据进行查询、汇总、分析。同时,Hive也允许熟悉MapReduce开发者们开发自定义的Mappers和Reducers来处理内建的Mappers和Reducers无法完成的复杂的分析工作。Hive还允许用户编写自己定义的函数UDF,用来在查询中使用。;;;6.2 Hive组件架构;6.2 Hive组件架构;6.2 Hive组件架构;;6.3 下载和解压安装
2022-06-22 11:05:16 991KB 大数据 Hive
Hadoop运行状态;;5.1 Hadoop运行状态;Hadoop运行状态;Hadoop运行状态;Hadoop运行状态;Hadoop运行状态;5.2 配置Hadoop格式化;;5.3 查看JAVA进程;查看JAVA进程;查看JAVA进程;查看JAVA进程;5.4 查看HDFS的报告;查看HDFS 报告;查看HDFS 报告;5.5 使用浏览器查看节点状态 ;在浏览器的地址栏输入:50070,进入页面可以查看NameNode和DataNode信息,如图;在浏览器的地址栏输入:50090,进入页面可以查看SecondaryNameNode信息,如图;下面运行WordCount官方案例,统计data.txt文件中单词的出现频度。这个案例可以用来统计年度十大热销产品、年度风云人物、年度最热名词等。 (1)在HDFS文件系统中创建数据输入目录 确保dfs和yarn都启动成功 [hadoop@master hadoop]$ start-yarn.sh [hadoop@master hadoop]$ jps 34257 NameNode 34449 SecondaryNameNode 34494 Jp
2022-06-22 11:05:15 1.33MB 大数据