Apache Hadoop官方文档,2.7.7版本,离线chm格式。之前我搜遍网络也没找到离线的官方文档,我就自己制作了一份chm格式的,希望对大家有用。
2023-02-21 16:11:48 8.96MB hadoop 官方文档 离线 2.7.7
1
默认下载的Hadoop不支持Windows系统,需要替换bin目录下的文件方便在Windows上运行。这个就是用来直接替换掉hadoop目录下bin文件的
2023-01-11 15:12:11 1.04MB win10安装Hadoop
1
预测航空公司延误 使用Hadoop通过2007年和2008年的数据预测奥黑尔机场的航班延误。使用Pig脚本,构建了一个特征矩阵,通过该矩阵我们可以训练和预测航空公司的延误,准确度约为80% 项目详情 建立了一个预测航空公司延误的模型,准确度约为80% 将航空公司数据集与UCI Repo的740万飞行记录一起使用 利用Pydoop实现MapReduce以构建特征矩阵 使用Pig脚本生成功能 使用Python,Scikit-Learn,Pig,Hadoop,HDFS,AWS EMR,IPython构建 技术指标 Python 2.7 Hadoop 2.7.3 Scikit学习 大熊猫 线性回
2022-12-29 17:10:00 6KB python hadoop random-forest scikit-learn
1
Apache Hadoop (hadoop-3.3.4.tar.gz)项目为可靠、可扩展的分布式计算开发开源软件。官网下载速度非常缓慢,因此将hadoop-3.3.4 版本放在这里,欢迎大家来下载使用! Hadoop 架构是一个开源的、基于 Java 的编程框架,设计用于跨电脑集群来 处理大数据。Hadoop 是一个能够让用户轻松搭建和使用的分布式计算平台,能 够让用户轻松地在 Hadoop 上开发和运行处理海量数据的应用程序。 Hadoop 架构有两个主要的组件:分布式文件系统 HDFS 和 MapReduce 引擎。 在 Hadoop 中,MapReduce 底层的分布式文件系统是独文模块,用户可按照约定 的一套接口实现自己的分布式文件系统,然后经过简单的配置后,存储在该文件 系统上的数据便可以被 MapReduce 处理。 官网下载速度非常缓慢,因此将hadoop-3.3.4 版本放在这里,欢迎大家来下载使用!
2022-12-15 12:21:01 310.19MB hadoop hadoop-3.1.0
1
自述文件 该项目基于Hadoop和Hive。 如果您尚未设置它们,请参考以下说明: & 。 您可以从下载我们的测试数据。 README.txt具有有关其数据属性的非常详细的说明。 在wirteup中也有描述。 请将给定数据集中的::替换为 (这是一个标签)。 只要使其更容易处理即可。 请将目录更改为刚刚下载的数据文件。 对我来说是$cd ~/ml-1m 请启动hadoop,这是Hive运行的先决条件。 输入命令$hive -f extract.q 。 将出现目录“结果”。 它存储我们要使用的数据。 我们已经在源文件中提供了这样提取的数据,称为new_data.txt 。 在HDFS上创建文件夹,我们将数据放入文件夹: $ hadoop fs -makedir /hadoop 将数据放在HDFS上: $ hadoop -fs copyFromLocal /directory of
2022-12-02 20:42:13 84.58MB Java
1
网页排名 Google 的 PageRank 算法在 MapReduce 范式中的实现。 Apache Hadoop、Java
2022-11-21 17:25:17 7KB Java
1
playbook.tar.gz +apache hadoop搭建文档+使用说明书+自动化运维工具ansible的安装和使用
2022-10-18 19:05:55 3.61MB ansible 自动化运维 apachehadoop搭建
1
Hadoop是一个由Apache基金会所开发的分布式系统基础架,是当前最火爆的大数据应用框架,Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算.hdfs作为hadoop重要的组成部分,实现了一个分布式文件系统(Hadoop Distributed File System),HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。本课程详细介绍了从部署linux虚拟机环境到实现全分布式启动hdfs进程的全过程,是快速入门大数据的必经之路.
1
Apache Hadoop (hadoop-3.3.3-src.tar.gz)项目为可靠、可扩展的分布式计算开发开源软件。 Apache Hadoop 软件库是一个框架,它允许使用简单的编程模型跨计算机集群分布式处理大型数据集。它旨在从单个服务器扩展到数千台机器,每台机器都提供本地计算和存储。库本身不是依靠硬件来提供高可用性,而是设计用于检测和处理应用层的故障,因此在计算机集群之上提供高可用性服务,每台计算机都可能容易出现故障。
2022-05-29 10:05:02 33.98MB ApacheHadoop hadoop
Apache Hadoop (hadoop-3.2.3-src.tar.gz)项目为可靠、可扩展的分布式计算开发开源软件。 Apache Hadoop 软件库是一个框架,它允许使用简单的编程模型跨计算机集群分布式处理大型数据集。它旨在从单个服务器扩展到数千台机器,每台机器都提供本地计算和存储。库本身不是依靠硬件来提供高可用性,而是设计用于检测和处理应用层的故障,因此在计算机集群之上提供高可用性服务,每台计算机都可能容易出现故障。
2022-05-29 10:05:01 31.61MB ApacheHadoop hadoop