Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。 Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。 Spark 是在 Scala 语言中实现的,它将 Scala 用作其应用程序框架。与 Hadoop 不同,Spark 和 Scala 能够紧密集成,其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。
2024-05-20 12:40:42 381.9MB spark
1
此文件为hadoop-2.7.7.tar.gz,可在linux下直接进行安装,如在windows上安装,则需要hadooponwindows-master.zip,用windows-master里的文件替换解压好后hadoop的bin和etc即可。 Hadoop 2.7.7是一款开源的分布式计算框架,由Apache基金会所开发。它的核心组件包括分布式文件系统HDFS和离线计算框架MapReduce。Hadoop 2.7.7支持完全分布式集群部署,具有高可靠性、高可扩展性、高容错性等特性。此外,该版本还提供了数据节点数据存储的节点位置定义功能,允许用户根据实际情况确定磁盘的挂载目录并进行分割。总的来说,Hadoop 2.7.7是一款适用于处理大规模数据的可靠工具。
2024-05-13 09:45:43 215.42MB hadoop linux
1
1.# 基于docker技术搭建Hadoop与MapReduce分布式环境 2.# 基于hadoop与MapReduce的分布式编程 3.# HDFS基本操作实验 4.# 使用docker构建spark运行环境 5.# 使用mllib完成mnist手写识别任务
2024-05-12 17:51:14 4.61MB hadoop
1
基于Spark框架的新闻推荐系统的设计与实现
2024-04-26 15:10:34 6.76MB
1
Centos+Hadoop+Hive+HBase
2024-04-24 19:31:16 730KB Hadoop Hive HBase
1
是大数据课程大作业,基于Hadoop的电影影评数据分析,需要安装Hadoop,了解MapReduce 和HDFS。
2024-04-22 15:09:31 1.49MB hadoop 数据分析
1
Hadoop大数据开发案例教程与项目实战
2024-04-18 21:31:05 133.22MB Hadoop
1
如果你的计算机上已经安装了Hadoop,本步骤可以略过。这里假设没有安装。如果没有安装Hadoop,请访问Hadoop安装教程_单机/伪分布式配置_Hadoop2.6.0/Ubuntu14.04,依照教程学习安装即可。注意,在这个Hadoop安装教程中,就包含了Java的安装,所以,按照这个教程,就可以完成JDK和Hadoop这二者的安装。
2024-04-18 20:49:00 127KB hadoop spark
1
文档非常详细,分为四个部分: ①VMware的安装 ②VMware下安装Ubuntu ③Hadoop的安装与配置 ④Spark的安装配置
2024-04-18 20:47:14 7.7MB spark hadoop vmware ubuntu
1
这个数据集是顾客对各个商家餐饮服务的评价由标签和评价两个数据项组成。 label=1(正向评价) label=0(负向评价) 用jieba(自然语言处理)库对用户评价进行分类,对商家的餐饮质量进行分析,把商家更加直观的呈现给顾客,让顾客选择更方便简洁。
2024-04-16 20:40:14 936KB hadoop 餐饮行业
1