海量数据处理平台架构
一般网站把用户的访问行为记录以apach 日志的形式记录下来了,这些日志中包含了下面一些
关键字段:
client_ip ,user_id,access_time,url,referer,status,page_size,agent
因为需要统一对数据进行离线计算,所以常常把它们全部移到同一个地方。
简单算了一下:
(1) 网站请求数:1kw/天
(2) 每天日志大小:450Byte/行* 1kw = 4.2G,
(3) 日志存储周期:2 年
一天产生4.5G 的日志,2 年需要4.2G * 2 * 365 = 3.0T
解决方案:
为了方便系统命令查看日志,不压缩,总共需要3.0T 的空间,刚好有一些2U 的服务器,每台共1T 的磁盘空间。
为了避免系统盘坏掉影响服务器使用,对系统盘做了raid1。
为了避免其他存放数据的盘坏掉导致数据无法恢复,对剩下的盘做了raid5。
所有的数据都汇聚到这几台LogBackup 服务器上来了。