Spark是当今大数据领域最活跃、最热门、高效的大数据通用计算平台,是Apache软件基金会下所有开源项目中三大开源项目之一。   在“One Stack to rule them all”理念的指引下,Spark基于RDD成功地构建起了大数据处理的一体化解决方案,将MapReduce、Streaming、SQL、Machine Learning、Graph Processing等大数据计算模型统一到一个技术堆栈中,开发者使用一致的API操作Spark中的所有功能;更为重要的是Spark的Spark SQL、MLLib、GraphX、Spark Streaming等四大子框架之间可以在内存中完美的无缝集成并可以互相操作彼此的数据,这不仅打造了Spark在当今大数据计算领域其他任何计算框架都无可匹敌的优势,更使得Spark正在加速成为大数据处理中心的计算平台。   《大数据Spark企业级实战》详细解析了企业级Spark开发所需的几乎所有技术内容,涵盖Spark的架构设计、Spark的集群搭建、Spark内核的解析、Spark SQL、MLLib、GraphX、Spark Streaming、Tachyon、SparkR、Spark多语言编程、Spark常见问题及调优等,并且结合Spark源码细致的解析了Spark内核和四大子框架,最后在附录中提供了的Spark的开发语言Scala快速入门实战内容,学习完此书即可胜任绝大多数的企业级Spark开发需要。   《大数据Spark企业级实战》从零起步,完全从企业处理大数据业务场景的角度出发,基于实战代码来组织内容,对于一名大数据爱好者来说,《大数据Spark企业级实战》内容可以帮助您一站式地完成从零起步到进行Spark企业级开发所需要的全部核心内容和实战需要。
2021-12-27 15:53:54 139.57MB 大数据 Spark 实战 分布式计算
1
  并行计算或称平行计算是相对于串行计算来说的。所谓并行计算可分为时间上的并行和空间上的并行。 时间上的并行就是指流水线技术,而空间上的并行则是指用多个处理器并发的执行计算。
2021-12-22 10:26:25 185KB 分布式计 并行计算 文章 技术应用
1
分布式存储系统HBase原理解析,郝树魁,,随着数据量的膨胀和计算机硬件价格的下降,快速处理海量数据的需求促使了分布式计算的兴起和发展。Hadoop除了提供分布式文件系统和
2021-12-21 16:16:16 475KB 分布式计算
1
目前四次作业。1.TCP、UDPsocket通信 2.多线程与线程池版的TCP、UDP 3.WebService服务 4.消息中间件
2021-12-21 14:42:28 1.74MB socket通信 WebService TCP/UDP通信
1
Distributed Computing - Principles,Algorithms,and Systems 分布式计算:原理,算法与系统
2021-11-29 13:46:19 6.47MB 分布式计算 区块链 共识算法
1
着重描述联邦迁移学习参与放之间的协作,安全联邦迁移学习框架,计算损失和梯度的数学细节。着重描述联邦迁移学习参与放之间的协作,安全联邦迁移学习框架,计算损失和梯度的数学细节。
2021-11-24 12:36:35 756KB 联邦迁移学习 分布式计算
1
使用Dask和PyTorch课程进行并行化和分布式计算 数据科学为商业,学术界和其他部门带来不可否认的价值。 随着我们开始意识到这一点,企业和组织已经在收集和存储比以往任何时候都更多的数据。 因此,数据科学从业者所面临的挑战不是复杂的机器学习方法,而是我们处理大量数据的能力。 将并行化和分布式计算应用于机器学习用例(例如计算机视觉任务)可以提高速度和生产率,从而使我们能够充分利用海量数据和复杂方法。 利用分布式计算并将标准Python转换为优化的并行代码可能是具有挑战性的。 学完本课程后,学生将掌握使用分布式计算和并行化以扩大其机器学习所需的基础知识。 本课程将包括一个案例研究示例,演示使用PyTorch进行图像分类的这些策略,PyTorch是可以受益于并行化的多种机器学习方法之一。 学习目标 学完本课程后,学生将能够: 描述什么是分布式计算,并了解如何访问云中的机器集群并与之交互 解
2021-11-22 18:20:17 2.82MB HTML
1
分布式计算-PySpark 该存储库包含有关在Python中使用Spark进行分布式计算的微型项目。 文本分析:PySpark中的逐点相互信息 计算文本文件中出现的所有单词的一个或多个标记的PMI。 图/网络分析:PySpark中的个性化PageRank算法 实现PageRank算法的修改版本,其中参照给定的源节点执行排名。 修改有两个方面: 随机仅跳到源节点 由于节点悬空而造成的质量损失将完全转移到源节点,而不是在整个图形上重新分配 使用Spark数据帧和Spark SQL查询TPCH
2021-11-21 13:07:45 1.96MB graphs pmi networks text-analytics
1
分布式计算——原理、算法和系统
2021-11-19 13:46:35 4.33MB 分布式计算
1
最新MATLAB分布式仿真平台搭建官方文档,系统管理员指南。
2021-11-14 15:22:25 1.48MB 分布式计算
1