课程分享——Spark从入门到上手实战视频教程,完整版下载,含代码、软件、笔记、课件等。Spark属于新起的基于内存处理海量数据的框架,由于其快速被众公司所青睐。Spark 生态栈框架,非常的强大,可以对数据进行批处理、流式处理、SQL 交互式处理及机器学习和Graphx 图像计算。
2021-12-28 18:07:56 680B spark 大数据
1
02 Big Data Hadoop and Spark Developer.pdf
2021-12-28 11:11:12 28.63MB 大数据 Hadoop Spark
1
Spark是当今大数据领域最活跃、最热门、高效的大数据通用计算平台,是Apache软件基金会下所有开源项目中三大开源项目之一。   在“One Stack to rule them all”理念的指引下,Spark基于RDD成功地构建起了大数据处理的一体化解决方案,将MapReduce、Streaming、SQL、Machine Learning、Graph Processing等大数据计算模型统一到一个技术堆栈中,开发者使用一致的API操作Spark中的所有功能;更为重要的是Spark的Spark SQL、MLLib、GraphX、Spark Streaming等四大子框架之间可以在内存中完美的无缝集成并可以互相操作彼此的数据,这不仅打造了Spark在当今大数据计算领域其他任何计算框架都无可匹敌的优势,更使得Spark正在加速成为大数据处理中心的计算平台。   《大数据Spark企业级实战》详细解析了企业级Spark开发所需的几乎所有技术内容,涵盖Spark的架构设计、Spark的集群搭建、Spark内核的解析、Spark SQL、MLLib、GraphX、Spark Streaming、Tachyon、SparkR、Spark多语言编程、Spark常见问题及调优等,并且结合Spark源码细致的解析了Spark内核和四大子框架,最后在附录中提供了的Spark的开发语言Scala快速入门实战内容,学习完此书即可胜任绝大多数的企业级Spark开发需要。   《大数据Spark企业级实战》从零起步,完全从企业处理大数据业务场景的角度出发,基于实战代码来组织内容,对于一名大数据爱好者来说,《大数据Spark企业级实战》内容可以帮助您一站式地完成从零起步到进行Spark企业级开发所需要的全部核心内容和实战需要。
2021-12-27 15:53:54 139.57MB 大数据 Spark 实战 分布式计算
1
spark graphX 简单介绍
2021-12-27 14:57:40 319KB graphX spark
1
初学者手册 一、 软件及下载 2 二、 集群环境信息 2 三、 机器安装 3 1. 安装虚拟机VirtualBox 3 2. 安装CentOs7 3 四、 基础环境搭建(hadoop用户下) 7 1. 机器名HostName 7 2. 关闭防火墙 7 3. 系统更新及常用工具安装 8 4. IP配置 8 5. JDK安装 9 五、 Hadoop安装及配置 10 1. 安装 10 2. 配置 10 六、 机器集群搭建 14 1. 复制机器 14 2. 设置静态IP 15 3. 设置机器名hostname 15 4. ssh免密登录 15 5. hadoop集群测试 17 七、 Spark & Scala 集群安装 18 1. scala安装 18 2. spark安装 19 3. 测试spark集群 20 八、 Scala开发环境搭建 21 1、系统安装 21 2、安装jdk8 21 3、安装scala2.11 21 4、安装scala for eclipse 21 5、创建scala工程 21
2021-12-27 14:06:01 727KB Spark Hadoop
1
基于Spark和Hive的新型种质资源数据仓库的设计和实现.caj
2021-12-27 13:24:47 5.11MB spark hive
1
hive 面试宝典,hive常见问题,hive优化非常详细
2021-12-27 11:06:31 14KB hive hadoop
1
第1章 课程介绍 第2章 初识实时流处理 第3章 分布式日志收集框架Flume 第4章 分布式发布订阅消息系统Kafka 第5章 实战环境搭建 第6章 Spark Streaming入门 第7章 Spark Streaming核心概念与编程 第8章 Spark Streaming进阶与案例实战 第9章 Spark Streaming整合Flume 第10章 Spark Streaming整合Kafka 第11章 Spark Streaming整合Flume&Kafka打造通用流处理基础
2021-12-27 11:06:30 345B spark
泰坦尼克号火花 此存储库是一个示例Spark模型,该模型适用于ModelOp Center和ModelOp Spark Runtime Service。 资产 有三个资产用于运行此示例: 资产类型 回购文件 HDFS路径 描述 模型二进制 titanic.zip /hadoop/demo/titanic-spark/titanic 在此存储库中,Spark模型二进制文件已压缩为zip文件,但必须进行扩展,并且必须在Spark集群HDFS中可用,该模型的init()函数才能运行 投入资产 test.csv /hadoop/demo/titanic-spark/test.csv 模型score()函数的输入文件。 HDFS路径可以根据score()函数的external_inputs参数变化 产出资产 titanic_output.csv /hadoop/demo/titanic-
2021-12-26 21:55:31 48KB Python
1
参考个人博客《Spark RDD 论文详解(三)Spark 编程接口》了解详情
2021-12-26 21:07:16 10KB spark
1