一个基于Hadoop平台进行的单词统计系统,其中包含了伪分布架构,并且包含HDFS数据存储,结合Java后台利用Mapreduce架包进行单词的统计与分析。包含了完整的实践过程,内涵源代码,以及实验命令,内容丰富,实验过程完整。指令明确,图文并茂,且配有对于每一个关键步骤的详细解释,对于新手及其友好。并且对于搭建过程中所会产生的问题,进行了详细的解释。内附Madreduce和程序整体的运行流程,过程清晰明了。
1
Hadoop实战学习(2)-日志清洗-附件资源
2021-10-16 19:56:49 106B
1
海量数据处理平台架构 一般网站把用户的访问行为记录以apach 日志的形式记录下来了,这些日志中包含了下面一些 关键字段: client_ip ,user_id,access_time,url,referer,status,page_size,agent 因为需要统一对数据进行离线计算,所以常常把它们全部移到同一个地方。 简单算了一下: (1) 网站请求数:1kw/天 (2) 每天日志大小:450Byte/行* 1kw = 4.2G, (3) 日志存储周期:2 年 一天产生4.5G 的日志,2 年需要4.2G * 2 * 365 = 3.0T 解决方案: 为了方便系统命令查看日志,不压缩,总共需要3.0T 的空间,刚好有一些2U 的服务器,每台共1T 的磁盘空间。 为了避免系统盘坏掉影响服务器使用,对系统盘做了raid1。 为了避免其他存放数据的盘坏掉导致数据无法恢复,对剩下的盘做了raid5。 所有的数据都汇聚到这几台LogBackup 服务器上来了。
2021-09-06 13:13:21 1.42MB 大数据 云计算 hadoop 实战
hadoop实战培训.ppt
2021-03-05 14:00:33 1.35MB 集群
本教程从最基础的Spark介绍开始,介绍Spark的各种部署模式以及动手进行搭建,然后逐步介绍其中RDD的计算模型,创建和常用的操作,以及其中一些分布式计算,R...
2021-01-28 04:17:36 79KB 大数据 Spark Hadoop 实战项目
1
java操作hadoop之mapreduce分析年气象数据最低温度实战源码,附带所需jar包,欢迎学习。
2020-01-03 11:30:00 35.64MB hadoop实战
1
hadoop实战源代码,包含Java操作HDFS文件的上传、下载、删除等功能
2019-12-21 21:06:01 102KB hadoop 2.6.1 Java
1