一、 HBase技术介绍 HBase简介 HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。 HBase是Google Bigtable的开源实现,类似Google Bigtable利用GFS作为其文件存储系统,HBase利用Hadoop HDFS作为其文件存储系统;Google运行MapReduce来处理Bigtable中的海量数据,HBase同样利用Hadoop MapReduce来处理HBase中的海量数据;Google Bigtable利用 Chubby作为协同服务,HBase利用Zookeeper作为对应。 上图描述了Hadoop EcoSystem中的各层系统,其中HBase位于结构化存储层,Hadoop HDFS为HBase提供了高可靠性的底层存储支持,Hadoop MapReduce为HBase提供了高性能的计算能力,Zookeeper为HBase提供了稳定服务和failover机制。 此外,Pig和Hive还为HBase提供了高层语言支持,使得在HBase上进行数据统计处理变的非常简单。 Sqoop则为HBase提供了方便的RDBMS数据导入功能,使得传统数据库数据向HBase中迁移变的非常方便。
2021-09-05 14:06:23 3.02MB 大数据 云计算 Hadoop Hbase
History started by chad walters and jim 2006.11 G release paper on BigTable 2007.2 inital HBase prototype created as Hadoop contrib 2007.10 First useable Hbase 2008.1 Hadoop become Apache top-level project and Hbase becomes subproject 2008.10 Hbase 0.18,0.19 released hbase是bigtable的开源山寨版本。是建立的hdfs之上,提供高可靠性、高性能、列存储、可伸缩、实时读写的数据库系统。 它介于nosql和RDBMS之间,仅能通过主键(row key)和主键的range来检索数据,仅支持单行事务(可通过hive支持来实现多表join等复杂操作)。主要用来存储非结构化和半结构化的松散数据。 与hadoop一样,Hbase目标主要依靠横向扩展,通过不断增加廉价的商用服务器,来增加计算和存储能力。 HBase中的表一般有这样的特点: 1 大:一个表可以有上亿行,上百万列 2 面向列:面向列(族)的存储和权限控制,列(族)独立检索。 3 稀疏:对于为空(null)的列,并不占用存储空间,因此,表可以设计的非常稀疏。 下面一幅图是Hbase在Hadoop Ecosystem中的位置。
2021-09-05 14:06:23 822KB Hadoop Hbase 大数据 云计算
1 序 2 思想篇 2 CAP 2 最终一致性 2 变体 2 BASE 2 其他 2 I/O的五分钟法则 2 不要删除数据 2 RAM是硬盘,硬盘是磁带 2 Amdahl定律和Gustafson定律 2 万兆以太网 3 手段篇 3 一致性哈希 3 亚马逊的现状 3 算法的选择 3 Quorum NRW 3 Vector clock 3 Virtual node 3 gossip 3 Gossip (State Transfer Model) 3 Gossip (Operation Transfer Model) 3 Merkle tree 3 Paxos 3 背景 3 DHT 3 Map Reduce Execution 3 Handling Deletes 3 存储实现 3 节点变化 3 列存 3 描述 3 特点 4 软件篇 4 亚数据库 4 MemCached 4 特点 4 内存分配 4 缓存策略 4 缓存数据库查询 4 数据冗余与故障预防 4 Memcached客户端(mc) 4 缓存式的Web应用程序架构 4 性能测试 4 dbcached 4 Memcached 和 dbcached 在功能上一样吗? 4 列存系列 4 Hadoop之Hbase 4 耶鲁大学之HadoopDB 4 GreenPlum 4 FaceBook之Cassandra 4 Cassandra特点 4 Keyspace 4 Column family(CF) 4 Key 4 Column 4 Super column 4 Sorting 4 存储 4 API 4 Google之BigTable 4 Yahoo之PNUTS 4 特点 4 PNUTS实现 4 Record-level mastering 记录级别主节点 4 PNUTS的结构 4 Tablets寻址与切分 4 Write调用示意图 4 PNUTS感悟 4 微软之SQL数据服务 4 非云服务竞争者 4 文档存储 4 CouchDB 4 特性 4 Riak 4 MongoDB 4 Terrastore 4 ThruDB 4 Key Value / Tuple 存储 4 Amazon之SimpleDB 4 Chordless 4 Redis 4 Scalaris 4 Tokyo cabinet / Tyrant 4 CT.M 4 Scalien 4 Berkley DB 4 MemcacheDB 4 Mnesia 4 LightCloud 4 HamsterDB 4 Flare 4 最终一致性Key Value存储 4 Amazon之Dynamo 4 功能特色 4 架构特色 4 BeansDB 4 简介 4 更新 4 特性 4 性能 4 Nuclear 4 两个设计上的Tips 4 Voldemort 4 Dynomite 4 Kai 4 未分类 4 Skynet 4 Drizzle 4 比较 4 可扩展性 4 数据和查询模型 4 持久化设计 5 应用篇 5 eBay 架构经验 5 淘宝架构经验 5 Flickr架构经验 5 Twitter运维经验 5 运维经验 5 Metrics 5 配置管理 5 Darkmode 5 进程管理 5 硬件 5 代码协同经验 5 Review制度 5 部署管理 5 团队沟通 5 Cache 5 云计算架构 5 反模式 5 单点失败(Single Point of Failure) 5 同步调用 5 不具备回滚能力 5 不记录日志 5 无切分的数据库 5 无切分的应用 5 将伸缩性依赖于第三方厂商 5 OLAP 5 OLAP报表产品最大的难点在哪里? 5 NOSQL们背后的共有原则 5 假设失效是必然发生的 5 对数据进行分区 5 保存同一数据的多个副本 5 动态伸缩 5 查询支持 5 使用 Map/Reduce 处理汇聚 5 基于磁盘的和内存中的实现 5 仅仅是炒作? 6 附 6 感谢 6 版本志 6 引用
2021-09-05 14:02:40 2.49MB 大数据 云计算 NoSQL 数据库
1. Windows下eclipse开发环境配置 1.1 安装开发hadoop插件 将hadoop安装包hadoop\contrib\eclipse-plugin\hadoop-0.20.2-eclipse-plugin.jar拷贝到eclipse的插件目录plugins下。 需要注意的是插件版本(及后面开发导入的所有jar包)与运行的hadoop一致,否则可能会出现EOFException异常。 重启eclipse,打开windows->open perspective->other->map/reduce 可以看到map/reduce开发视图。 1.2 设置连接参数 打开windows->show view->other-> map/reduce Locations视图,在点击大象后弹出的对话框(General tab)进行参数的添加:
2021-09-05 11:04:35 460KB 大数据 云计算 hadoop eclipse
前置条件: 1、ubuntu10.10安装成功(个人认为不必要花太多时间在系统安装上,我们不是为了装机而装机的) 2、jdk安装成功(jdk1.6.0_23for linux版本,图解安装过程http://freewxy.iteye.com/blog/882784 ) 3、下载hhadoop0.21.0.tar.gz(http://apache.etoak.com//hadoop/core/hadoop-0.21.0/ ) 安装hadoop 1、首先将hadoop0.21.0.tar.gz复制到usr下的local文件夹内,(sudo cp hadoop路径 /usr/local)如图
2021-09-05 11:04:35 1.29MB hadoop 单机版 安装教程 大数据
Hadoop的发展基本上经历了这样一个过程:从一个开源的Apache基金会项目,随着越来越多的用户的加入,不断地使用、贡献和完善,形成一个强大的 生态系统,从2009年开始,随着云计算和大数据的发展,Hadoop作为海量数据分析的最佳解决方案,开始受到许多IT厂商的关注,从而出现了许多 Hadoop的商业版以及支持Hadoop的产品,包括软件和硬件。
2021-09-04 09:13:04 2.14MB 大数据 云计算 hadoop 课程
1 初识HADOOP 3 1.1 MAPREDUCE模型介绍 3 1.2 HADOOP介绍 5 1.2.1 Hadoop的核心MapReduce 6 1.2.2 Hadoop的分布式文件系统 7 1.3 安装HADOOP 8 1.3.1 安装的前提条件 8 1.3.2 安装Hadoop 13 1.3.3 检查你的环境 14 1.4 执行和测试HADOOP样例程序 18 1.4.1 Hadoop的样例代码 18 1.4.2 测试Hadoop 23 1.5 解决问题 24 1.6 总结 25 2 MAPREDUCE任务的基础知识 26 2.1 HADOOP MAPREDUCE作业的基本构成要素 26 2.1.1 输入分割块 30 2.1.2 一个简单的Map任务:IdentityMapper 30 2.1.3 一个简单的Reduce任务:IdentityReducer 32 2.2 配置作业 34 2.2.1 指定输入格式 43 2.2.2 设置输出参数 45 2.2.3 配置Reduce阶段 50 2.3 执行作业 52 2.4 创建客户化的MAPPER和REDUCER 54 2.4.1 设置客户化的Mapper 54 2.4.2 作业完成 60 2.4.3 创建客户化的Reducer 62 2.4.4 为什么Mapper和Reducer继承自MapReduceBase 65 2.4.5 使用客户化分割器 66 2.5 总结 68
2021-09-04 09:13:03 265KB 云计算 大数据 hadoop 分布式
Splunk是一个分析计算机系统产生的机器数据,并在广泛的场景中提供数据收集、分析、可视化分布式的数据计算平台。客户可使用 Splunk 来搜索、监测、分析和可视化机器数据。本套课程为2018年录制,共23集,软件版本7.1。
2021-09-03 15:25:18 12.78MB splunk 大数据 云计算/大数据
1
大数据云计算在能源行业思考(甲骨文(中国)软件系统有限公司.pdf
2021-08-26 09:02:59 2.5MB 智慧能源
根据开发商业实例进行Hadoop的使用,开发分析讲解,有视频和学习大纲。
2021-08-25 15:29:15 22.32MB Hadoop 大数据 云计算 kafka
1