,Hadoop 技术已经在互联网领域得到了广泛的应用。互联网公司往往需要 存储海量的数据并对其进行处理,而这正是Hadoop 的强项。如Facebook 使用Hadoop 存储 内部的日志拷贝,以及数据挖掘和日志统计;Yahoo !利用Hadoop 支持广告系统并处理网页 搜索;Twitter 则使用Hadoop 存储微博数据、日志文件和其他中间数据等。在国内,Hadoop 同样也得到了许多公司的青睐,如百度主要将Hadoop 应用于日志分析和网页数据库的数据 挖掘;阿里巴巴则将Hadoop 用于商业数据的排序和搜索引擎的优化等。
2022-05-07 08:47:46 4.11MB Hadoop 雅虎 eBay 百度
1
本文档详细的介绍了spark的shell启动命令,具体细节等要求
2022-05-06 23:11:29 107B spark-shell
1
hadoop2.8.3 winUtils 。如果本机操作系统是 Windows,在程序中使用了 Hadoop 相关的东西,比如写入文件到HDFS,则会遇到如下异常:could not locate executable null\bin\winutils.exe ,使用这个包,设置一个 HADOOP_HOME 环境变量,即可解决。
2022-05-06 20:53:03 417KB hadoop winUtils.exe
1
在网站流量日志分析这种场景中,对数据采集部分的可靠性、容错能力要求通常不会非常严苛,需要注意的是结合语境明白是何种含义的数据采集。
2022-05-06 20:46:44 771KB hadoop
1
包括以下工具: apache-ant-1.9.12-bin.tar.gz apache-maven-3.5.4-bin.tar.gz findbugs-3.0.1.tar.gz hadoop-2.6.4-src.tar.gz protobuf-2.5.0.tar.gz 还有一份hadoop编译文档,照着操作顺利编译,亲测可用。
2022-05-06 20:37:24 41.41MB apache-ant apache-maven protobuf findbugs
1
Hadoop mapreduce 实现KMeans,可用
2022-05-06 19:31:42 11KB Hadoop mapreduce KMeans
1
大数据集群规划 hadoop集群软件硬件规划,报告一个规模超上千个节点Hadoop集群的【硬件规划,软件规划, 网络规划,应用规划】设计,综合考虑了集群头节点的高可用设计, 元数据的备份恢复设计,读写流量分离,多租户,安全审计设计,集 群冗余设,结合应用场景,结构化(文本和数据表)和非结构化数据 (影像)的等不同并行处理方式,并探索深度学习和Hadoop分布式融 合等规划。
2022-05-06 18:12:36 853KB big data hadoop 源码软件
A.3实验三:熟悉常用的HBase操作 本实验对应第5章的内容。 A.3.1 实验目的 (1)理解HBase在Hadoop体系结构中的角色。(2)熟练使用HBase操作常用的 Shell命令。(3)熟悉HBase操作常用的 Java API。 A.3.2 实验平台 (1)操作系统:Linux。 (2)Hadoop 版本:2.7.1或以上版本。(3)HBase版本:1.1.2或以上版本。(4) JDK 版本:1.7或以上版本。(5) Java IDE:Eclipse。
2022-05-06 18:12:36 3.29MB 大数据 HBase Hadoop
hadoop 3.3.2源码包
2022-05-06 18:12:35 33.19MB 源码软件 hadoop 大数据 big
1
1. 训练要点 (1) 使用socket连接方式获取数据源。 (2) DStream的转换操作。 2. 需求说明 从一台服务器的8888端口上收到一个以换行符为分隔符的多行文本,要从中筛选出包含单词error的记录,并把它打印出来。 3. 实现步骤 (1) 启动Spark独立集群模式并启动spark-shell。 spark-shell –master local[2]
2022-05-06 18:12:31 20KB spark 源码软件 大数据 big