海量数据处理平台架构 一般网站把用户的访问行为记录以apach 日志的形式记录下来了,这些日志中包含了下面一些 关键字段: client_ip ,user_id,access_time,url,referer,status,page_size,agent 因为需要统一对数据进行离线计算,所以常常把它们全部移到同一个地方。 简单算了一下: (1) 网站请求数:1kw/天 (2) 每天日志大小:450Byte/行* 1kw = 4.2G, (3) 日志存储周期:2 年 一天产生4.5G 的日志,2 年需要4.2G * 2 * 365 = 3.0T 解决方案: 为了方便系统命令查看日志,不压缩,总共需要3.0T 的空间,刚好有一些2U 的服务器,每台共1T 的磁盘空间。 为了避免系统盘坏掉影响服务器使用,对系统盘做了raid1。 为了避免其他存放数据的盘坏掉导致数据无法恢复,对剩下的盘做了raid5。 所有的数据都汇聚到这几台LogBackup 服务器上来了。
2021-09-06 13:13:21 1.42MB 大数据 云计算 hadoop 实战
Hadoop集群监控Cacti 优点 监控每台服务器的详细数据 SNMP采集数据可以自己定义 相比zabbix:无需客户端 安装配置简单 spine采集速度快 模板众多 支持IPMI 缺点 SNMPD为UDP协议,不够稳定 无法获知集群整体运行状况
2021-09-06 13:13:21 901KB Hadoop Hive 大数据 云计算
一:IZP Hadoop集群现状 集群规模 共大、小 2个集群:数据中心和实验室集群 数据中心: 1台NameNode, 1台SecondNameNode, 1台JobTracker,100来台DataNode 共100多台高配服务器; 数据中心又分为10多个机架,每个机架上10多台服务器; 实验室集群:共10几台普通微型机. 机器配置 名称节点和第二名称节点内存不小于90G,硬盘约1TB JobTracker内存不小于20G,硬盘约1TB 数据节点内存不小于20G,硬盘不小于10TB 槽位分配:每台机器十多个Map槽位,四至六个Reduce槽位
2021-09-06 13:13:20 382KB 大数据 云计算 Hadoop 教程
Hadoop在蓝汛 说说Cloudera和它的产品们 运维杂记——几次重大事故
2021-09-06 13:13:20 2.42MB 大数据 云计算 Hadoop 运维
数据平台之IUPushRsync IUPushRsync 程序利用rsync -U 命令对日志文件进行增量式同步,其优点在于:1)准实时数据压缩传输(降低宽带占用);2)数据完整性检验 数据平台之hadoop Hadoop 是一个能够对PB级数据进行分布式 并行处理的软件框架。hadoop能够同时提供 数据存储和运算上的备份,并提供多种数据 访问和运算接口:mapred编程框架、hive数 据仓库(类似于MySQL)、pig数据流编程 语言、fuse(将HDFS文件系统挂载成普通文 件系统)
2021-09-06 13:13:19 1.1MB 大数据 云计算 hadoop 架构
Hadoop基本概念 Hadoop的应用范围 Hadoop底层实现原理 Hive与数据分析 Hadoop集群管理 典型的Hadoop离线分析系统架构 常见问题及解决方案
2021-09-06 13:13:19 1.99MB 淘宝网 Hadoop 数据分析 数据平台
背景——进入淘宝数据平台 数据规模 数据产品 总台架构 概览——数据应用开发架构 产品架构 技术架构 深入——关键服务介绍 知识库(元数据) 调度 数据集成 IDE 成本优化 生命周期 展望——数据创造未来
2021-09-06 13:13:18 1.29MB Hadoop 淘宝网 大数据 云计算
【Outlines】 Hadoop Overview HDFS Map-reduce Programming Paradigm Hadoop Map-reduce Job Scheduler Resources Hadoop, Why? 数据太多了,需要能存储、快速分析Pb级数据集的系统 单机的存储、IO、内存、CPU有限,需要可扩展的集群 使用门槛低,数据分析是个庞杂的问题,MPI太复杂 单点故障问题 –机器多了单点故障成为正常的异常 –节点有增有减 Hadoop就是一个满足易用性、可靠性、可扩展性的存储计算平台,还是开源的!
2021-09-06 13:13:17 1.05MB 大数据 云计算 Hadoop Mapreduce
地方政府发展云计算动向 北京启动实施“祥云工程”行动计划,计划到2015年形成500亿元的产业规模,带动整个产业链规模达到2000亿元,云应用的水平居于世界前列,使北京成为世界级云计算产业基地。中关村云计算产业技术联盟挂牌成立。 上海云计算3年发展方案出台,上海将致力打造“亚太云计算中心”,培育10家年经营收入超亿元的云计算企业,带动信息服务业新增经营收入千亿元。 深圳市云计算产业协会2009年12月揭牌。深圳“云计算”产业中心选址西丽大学城。2010年4月,深圳从事云计算的相关企业近80家。
2021-09-06 13:09:30 22.99MB 大数据 云计算 简介 技术动向
Hadoop, Apache开源的分布式框架。源自Google GFS,BigTable,MapReduce 论文。 == HDFS == HDFS (Hadoop Distributed File System),Hadoop 分布式文件系统。 NameNode,HDFS命名服务器,负责与DataNode文件元信息保存。 DataNode,HDFS数据节点,负责存储数据存储并汇报给NameNode。 SecondaryNamenode,NameNode的镜像备份节点 ==Map Reduce== JobTracker,hadoop的Map/Reduce调度器,负责与TackTracker通信分配计算任务并跟踪任务进度。 TaskTracker,启动和管理Map和Reduce子任务的节点。
2021-09-05 16:05:28 2.32MB 大数据 云计算 Hadoop HDFS