大数据实验报告,内含八个实验报告,Hadoop集群伪分布式搭建、Hadoop基本操作、MapReduce程序设计、Zookeeper安装与Hadoop高可用性部署、Hbase数据储存设计、 Sqoop数据迁移实战、Flume数据采集实战、Hive数据分析实战
2021-05-10 13:13:13 12.98MB 大数据 实验报告
1
大数据实验Hbase安装部署和使用javaapi调用,详细且成功率高,纯自己手写的,hadoop和hbase版本是采用林子雨老师教材中的,自己在此教程上改良,引入先安装zookeeper方法避免诸多问题产生。 【大数据实验Hbase安装部署和使用javaapi调用】 在这个实验中,我们将深入理解HBase在Hadoop生态系统中的角色,并掌握如何在Ubuntu 19.04操作系统上安装、配置和使用HBase,同时利用Java API进行编程。实验中使用的Hadoop版本为3.2.0,HBase版本为2.2.1,JDK版本为jdk-13,IDE为Eclipse 4.3。 为了确保安装过程的顺利进行,建议预先独立安装Zookeeper,而不是依赖HBase自带的版本。这有助于避免可能出现的问题。可以从清华大学开源软件镜像站下载Zookeeper 3.6.2,配置包括修改`zoo.cfg`文件以设置数据存储目录,以及修改`zkEnv.sh`来指定Java和Zookeeper的路径。启动和关闭Zookeeper的命令分别是`zkServer.sh start`和`zkServer.sh stop`。记得将Zookeeper的配置添加到`.bashrc`并执行`source`命令使更改生效。 接下来,下载并解压HBase安装包至`/usr/local`目录,然后重命名解压后的文件夹为'hbase',并给予Hadoop用户适当的权限。通过编辑`.bashrc`,将HBase的`bin`目录添加到PATH中,这样就可以在任何目录下启动HBase。配置HBase的环境变量后,需要运行`source`命令来应用更改。 在HBase的伪分布式模式配置中,需要修改`hbase-env.sh`以使用自装的Zookeeper,并解决可能的包冲突。在`hbase-site.xml`中,设置`hbase.rootdir`指向HDFS上的存储路径,将`hbase.cluster.distributed`属性设为true,以适应伪分布式模式。确保HBase的Zookeeper端口与Zookeeper配置文件`zoo.cfg`中的`clientPort`一致。 启动HBase前,要确保已启动Hadoop和Zookeeper。正确的启动顺序是:启动Zookeeper -> 启动Hadoop -> 启动HBase -> 关闭HBase -> 关闭Hadoop -> 关闭Zookeeper。遵循这个顺序能避免错误。 在HBase Shell中,可以使用`list`命令查看所有表的信息。此外,HBase提供了丰富的Shell命令,如创建表、插入数据、查询数据等。对于编程实现,可以通过Java API来执行相同的操作,这要求对HBase的Java客户端库有深入了解,包括连接HBase集群、创建表、写入和读取数据等方法。 对于实验要求,除了列出所有表的信息,还需要实现其他功能,如创建表、插入数据、查询特定行或列等。这些操作可以通过HBase Shell命令和Java API分别实现。例如,使用Java API,可以创建一个表,定义列族和列限定符,然后通过Put对象向表中插入数据。查询时,可以使用Get或Scan对象获取特定行或范围的数据。 这个实验旨在通过实践加深对HBase的理解,提高在Hadoop环境中操作NoSQL数据库的能力,并掌握使用Java API与HBase交互的技能。完成实验后,不仅能够熟练配置和管理HBase,还能编写程序与HBase进行数据交互,为后续的大数据处理项目打下坚实基础。
2021-01-28 04:21:43 2.12MB hbase hadoop zookeeper
1
一、大数据平台的搭建 3 1. 架构设计 6 2 服务器集群的搭建 7 (1)安装Linux操作系统、 14 (2)安装大数据处理框架Hadoop 20 3 工具软件安装 21 (1)安装关系型数据库MySQL 26 (2)安装列族数据库HBase 27 (3)安装Zookeepper 28 (4)安装数据仓库Hive 29 (5)安装Sqoop 32 (6)安装Eclipse 33 二、数据导入 34 1. 数据库、表清单 34 2. 数据对象的定义 37 (1) 创建数据库 39 (2) 创建数据表; 43 3. 数据分析 44 (1) 简单查询分析 45 (2) 查询条数统计分析 46
2021-01-28 04:20:57 8.6MB 大数据
1
一、大数据平台的搭建 3 1. 架构设计 6 2 服务器集群的搭建 7 (1)安装Linux操作系统、 14 (2)安装大数据处理框架Hadoop 20 3 工具软件安装 21 (1)安装关系型数据库MySQL 26 (2)安装列族数据库HBase 27 (3)安装Zookeepper 28 (4)安装数据仓库Hive 29 (5)安装Sqoop 32 (6)安装Eclipse 33 二、数据导入 34 1. 数据库、表清单 34 2. 数据对象的定义 37 (1) 创建数据库 39 (2) 创建数据表; 43 3. 数据分析 44 (1) 简单查询分析 45 (2) 查询条数统计分析 46
2021-01-28 04:20:57 6.34MB hadoop
1
山东大学大数据课程的实验二。基于hadoop集群系统(也可以在伪分布式系统上运行)系统使用Java编写的倒排索引实现,具有使用停词表功能,使用正则表达式选择规范的单词。代码重构了setup(),map(),combiner(),partitation()和reducer()函数,功能是对文档进行倒排索引,得到一个单词有序,且单词的文件列表同样有序的倒排列表集合。
2020-05-11 22:24:38 6KB 倒排索引 大数据 Java hadoop
1
倒排索引(Inverted Index)被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射,是目前几乎所有支持全文索引的搜索引擎都需要依赖的一个数据结构。资源中包含了MapReduce实现的文档倒排索引的源码、jar包、测试数据(包含停词表)和结果。
2019-12-28 17:16:03 3.55MB MapRed Java Hadoop SDU
1
大数据实验总结_全部 大数据实验总结_全部 大数据实验总结_全部
2019-12-21 21:32:50 4.07MB 实验报告
1
这是山东大学大数据实验二,用Hadoop实现文档的倒排索引
2019-12-21 20:04:21 11KB Hadoop 大数据 倒排索引
1
压缩包里面是源代码,导出成jar包可以在集群上直接运行,记得改程序里面的学号
2019-12-21 20:04:21 3KB 山东大学 大数据 Hadoop PageRank
1
本资源为林子雨版本的大数据课外实验答案,包含截图,非常详细,记录了本人踩过的一些坑
2019-12-21 19:23:58 2.36MB spark hadoop hbase mapreduce
1