学习hive上收集各方资源,稍加见解,包含hive基础知识,上传以分享并备忘。
2021-11-14 18:06:24 522KB hive
1
集群硬件配置 在集群中,大部分的机器设备是作为Datanode和TaskTracker工作的Datanode/TaskTracker的硬件规格可以采用以下方案: 16-24GB内存 千兆以太网 NameNode提供整个HDFS文件系统的NameSpace(命名空间)管理、块管理等所有服务,因此需要更多的RAM,与集群中的数据块数量相对应,并且需要优化RAM的内存通道带宽,采用双通道或三通道以上内存。硬件规格可以采用以下方案: 16-72GB内存 千兆/万兆以太网 SecondaryNameNode在小型集群中可以和NameNode共用一台机器,较大的群集可以采用与NameNode相同的硬件
2021-11-13 21:10:47 3.06MB Hadoop Hive Spark Hbase
1
hive编程指南》是一本apache hive的编程指南,旨在介绍如何使用hive的sql方法——hiveql来汇总、查询和分析存储在hadoop分布式文件系统上的大数据集合。全书通过大量的实例,首先介绍如何在用户环境下安装和配置hive,并对hadoop和mapreduce进行详尽阐述,最终演示hive如何在hadoop生态系统进行工作。 《hive编程指南》适合对大数据感兴趣的爱好者以及正在使用hadoop系统的数据库管理员阅读使用。 Edward Capdolo,Media6degrees公司系统管理员,他是Apache软件基金会成员,还是Hadoop-Hive项目成员。 Dean Wampler,Think Big Analytics公司总顾问,对大数据问题以及Hadoop和机器学习有专门的研究。 Jason Rutherglen,Think Big Analytics公司软件架构师,对大数据、Hadoop、搜索和安全有专门的研究。
2021-11-13 11:40:25 26.31MB hive
1
Hive官网下载的最新版apache-hive-3.1.0-bin.tar.gz安装包,需要的朋友拿走
2021-11-12 23:20:14 120B hive
1
apache-hive-3.1.2
2021-11-11 22:17:43 265.9MB apache hive hadoop
1
见面会 搜索数据集: : MovieLens: :
2021-11-11 10:22:16 1.5MB Python
1
一、Hive简介 1.什么是Hive Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能(HQL); 其本质是将SQL转换为MapReduce的任务进行运算,底层由HDFS来提供数据的存储,hive可以理解为一个将SQL转换为MapReduce的任务的工具 2.Hive的特点 可扩展 Hive可以自由的扩展集群的规模,一般情况下不需要重启服务 延展性 Hive支持用户自定义函数,用户可以根据自己的需求来实现自己的函数 容错 良好的容错性,节点出现问题SQL仍可完成执行 3.Hive与传统数据库的对比图 4.Hiv
2021-11-10 15:39:31 153KB do hadoop hive
1
使用kettle抽取hive中的数据时,遇到了取数结果乱码的问题。替换此包可以解决
2021-11-10 14:49:46 159KB kettle hive 数据乱码
1
适用于hive-1.2.1与hbase-1.3.1版本适配。用于打通hbase与hive之间的屏障,避免重新编译jar包所带来的麻烦。
2021-11-10 11:40:40 104KB hive 大数据
1
hive入门
2021-11-10 11:28:33 741KB hive
1