大数据技术原理及应用课实验6 :熟悉Hive的基本操作

hadoop hive

一、实验目的 1. 理解Hive作为数据仓库在Hadoop体系结构中的角色。 2. 熟练使用常用的HiveQL。二、实验平台 1. 操作系统：Ubuntu18.04（或Ubuntu16.04）。 2. Hadoop版本：3.1.3。 3. Hive版本：3.1.2。 4. JDK版本：1.8。三、数据集由《Hive编程指南》(O'Reilly系列，人民邮电出版社)提供，下载地址： https://raw.githubusercontent.com/oreillymedia/programming_hive/master/prog-hive-1st-ed-data.zip 备用下载地址： https://www.cocobolo.top/FileServer/prog-hive-1st-ed-data.zip 解压后可以得到本实验所需的stocks.csv和dividends.csv两个文件。在大数据处理领域，Hive是一种基于Hadoop的数据仓库工具，它允许用户使用SQL类的语言（称为HiveQL）对大规模数据进行分析和处理。在这个实验中，我们将深入理解Hive的角色以及如何执行基本操作。 Hive在Hadoop生态系统中的角色是作为一个数据仓库接口，它简化了对分布式存储的大数据进行查询和分析的过程。Hive将复杂的MapReduce任务转化为简单的SQL查询，使得非Java背景的分析师也能轻松地处理大数据。实验平台包括Ubuntu操作系统、Hadoop 3.1.3、Hive 3.1.2和JDK 1.8。这些组件共同构成了一个支持大数据处理的基础架构。实验主要分为以下几个步骤： 1. 创建内部表`stocks`，它包含了关于股票交易的信息，如交易所、股票代码、交易日期、开盘价、最高价、最低价、收盘价、交易量和调整后的收盘价。内部表的数据存储在HDFS上，由Hive完全管理。 2. 创建一个外部分区表`dividends`，该表用于存储股息信息，包括交易日期、股息金额、交易所和股票代码。分区表的好处在于可以根据分区字段快速定位数据，提高查询效率。 3. 导入数据到`stocks`表，这是通过LOAD DATA命令实现的，将csv文件的数据加载到Hive表中。 4. 创建未分区的外部表`dividends_unpartitioned`，然后从csv文件导入数据。外部表的元数据由Hive管理，但数据本身的位置由用户指定，这使得数据可以独立于Hive存在。 5. 利用Hive的自动分区功能，将`dividends_unpartitioned`表中的数据按特定条件插入到`dividends`的各个分区中，这样可以优化查询性能。 6-10. 这些步骤涉及到各种查询操作，包括： - 查询IBM公司从2000年起的股息支付记录。 - 查询苹果公司2008年10月的涨跌情况。 - 查找收盘价高于开盘价最多的股票记录。 - 查询Apple公司年平均调整后收盘价超过50美元的年份及价格。 - 找出每年年平均调整后收盘价前三的股票代码和价格。通过这些操作，我们可以熟练掌握HiveQL的基本语法，如CREATE TABLE、LOAD DATA、INSERT INTO、SELECT等，以及如何利用Hive进行数据分区和复杂查询。此外，实验也强调了Hive在大数据分析中的实用性，特别是在处理大量历史交易数据时，能够提供高效的数据查询和分析能力。实验总结指出，通过实际操作，我们不仅了解了Hive在大数据处理中的核心功能，还掌握了如何利用Hive进行数据导入、查询和分析。这对于理解大数据处理流程，提升数据分析技能，以及在实际工作中应用Hive解决复杂问题具有重要意义。

文件下载

评论信息

其他资源

免责申明

【只为小站】的资源来自网友分享，仅供学习研究，请务必在下载后24小时内给予删除，不得用于其他任何用途，否则后果自负。基于互联网的特殊性，【只为小站】无法对用户传输的作品、信息、内容的权属或合法性、合规性、真实性、科学性、完整权、有效性等进行实质审查；无论【只为小站】经营者是否已进行审查，用户均应自行承担因其传输的作品、信息、内容而可能或已经产生的侵权或权属纠纷等法律责任。
本站所有资源不代表本站的观点或立场，基于网友分享，根据中国法律《信息网络传播权保护条例》第二十二条之规定，若资源存在侵权或相关问题请联系本站客服人员，zhiweidada#qq.com，请把#换成@，本站将给予最大的支持与配合，做到及时反馈和处理。关于更多版权及免责申明参见版权及免责申明

大数据技术原理及应用课实验6 :熟悉Hive的基本操作

文件下载

评论信息

其他资源

免责申明

个人信息

相关资源标签

热门下载

最新下载