spark期末复习题总结
2021-06-21 14:15:06 21KB spark apache spark
1
音乐推荐系统 该项目已作为NCSU ADBI 591课程的一部分完成。 注意:如果您是北卡罗莱纳州立大学的学生,并且在谷歌搜索作业中遇到问题时,请确保已使您的教授知道您已将此作为参考。 盲目复制而不引用您的消息来源是a窃案。 创建了一个推荐系统,该系统将根据新用户的收听历史向他们推荐新的音乐艺术家。 向用户建议不同的歌曲或音乐艺术家对于许多音乐流媒体服务(例如Pandora和Spotify)很重要。 另外,这种推荐系统也可以用作向用户(例如,Netflix)推荐电视节目或电影的手段。 使用Apache Spark,Python和协作过滤技术完成。
2021-06-16 14:41:54 743KB 系统开源
1
Scala2.11.12离线API
2021-06-09 09:09:14 20.86MB scala spark apache spark
1
Win10 系统下安装NatCat,亲测OK。下载后查看使用指导即可
2021-04-02 09:02:09 115KB apache spark
1
Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架
2021-03-16 14:24:36 139.47MB 大数据 Spark Hadoop 分布式
1
spark-streaming的flume依赖
2021-03-12 09:03:58 79KB apache spark flume jar
1
spakr streaming的kafka依赖
2021-03-12 09:03:57 136KB apache spark kafka jar
1
在ambari 上安装spark
2021-03-10 18:02:39 44KB apache spark
1
火花 Apache Spark代码示例(也使用SQLite)
2021-03-08 15:05:35 5KB JupyterNotebook
1
本文主要讨论 Apache Spark 的设计与实现,重点关注其设计思想、运行原理、实现架构及性能调优,附带讨论与 Hadoop MapReduce 在设计与实现上的区别。不喜欢将该文档称之为“源码分析”,因为本文的主要目的不是去解读实现代码,而是尽量有逻辑地,从设计与实现原理的角度,来理解 job 从产生到执行完成的整个过程,进而去理解整个系统。 讨论系统的设计与实现有很多方法,本文选择 问题驱动 的方式,一开始引入问题,然后分问题逐步深入。从一个典型的 job 例子入手,逐渐讨论 job 生成及执行过程中所需要的系统功能支持,然后有选择地深入讨论一些功能模块的设计原理与实现方式。也许这样的方式比一开始就分模块讨论更有主线。 本文档面向的是希望对 Spark 设计与实现机制,以及大数据分布式处理框架深入了解的 Geeks。 因为 Spark 社区很活跃,更新速度很快,本文档也会尽量保持同步,文档号的命名与 Spark 版本一致,只是多了一位,最后一位表示文档的版本号。 由于技术水平、实验条件、经验等限制,当前只讨论 Spark core standalone 版本中的核心功能,而不是全部功能。诚邀各位小伙伴们加入进来,丰富和完善文档。 好久没有写这么完整的文档了,上次写还是三年前在学 Ng 的 ML 课程的时候,当年好有激情啊。这次的撰写花了 20+ days,从暑假写到现在,大部分时间花在 debug、画图和琢磨怎么写上,希望文档能对大家和自己都有所帮助。 内容 本文档首先讨论 job 如何生成,然后讨论怎么执行,最后讨论系统相关的功能特性。具体内容如下: Overview 总体介绍 Job logical plan 介绍 job 的逻辑执行图(数据依赖图) Job physical plan 介绍 job 的物理执行图 Shuffle details 介绍 shuffle 过程 Architecture 介绍系统模块如何协调完成整个 job 的执行 Cache and Checkpoint 介绍 cache 和 checkpoint 功能 Broadcast 介绍 broadcast 功能 Job Scheduling
2021-02-22 11:17:01 25.2MB Apache Spark 设计与实现 PDF
1