Spark-Core文档是本人经三年总结笔记汇总而来,对于自我学习Spark核心基础知识非常方便,资料中例举完善,内容丰富。具体目录如下: 目录 第一章 Spark简介与计算模型 3 1 What is Spark 3 2 Spark简介 3 3 Spark历史 4 4 BDAS生态系统 4 5 Spark与Hadoop的差异 5 6 Spark的适用场景 6 7 Spark成功案例 6 第二章 Spark开发环境搭建 8 1 Spark运行模式 8 2 Spark环境搭建 8 2.1Scala的安装 8 2.2Spark的单节点配置 9 2.3Spark-Standalone集群配置 9 2.4Spark-on-Yarn模式配置 12 2.5Spark-on-Mesos模式配置 13 2.6Hive-on-Spark配置 13 第三章 Spark计算模型 15 1 RDD编程 15 1.1弹性分布式数据集RDD 15 1.2构建RDD对象 15 2RDD操作 15 2.1将函数传递给Spark 16 2.2了解闭包 16 2.3Pair RDD模型 17 2.4Spark常见转换操作 18 2.5Spark常见行动操作 20 2.6RDD持久化操作 21 2.7注意事项 23 2.7并行度调优 24 2.8分区方式 25 3Examle:PageRank 27 第四章 Spark编程进阶 29 1共享变量 29 1.1累加器 30 1.2广播变量 31 2基于分区进行操作 32 3与外部程序间的管道 33 4数值RDD的操作 34 5 Spark Shuffle机制 34 第五章 Spark调优与调试 39 1开发调优: 40 1.1调优概述 40 1.2原则一:避免创建重复的RDD 40 1.3原则二:尽可能复用同一个RDD 41 1.4原则三:对多次使用的RDD进行持久化 42 1.5原则四:尽量避免使用shuffle类算子 43 1.6原则五:使用map-side预聚合的shuffle操作 44 1.7原则六:使用高性能的算子 45 1.8原则七:广播大变量 46 1.9原则八:使用Kryo优化序列化性能 47 1.10原则九:优化数据结构 48 2资源调优 48 2.1调优概述 48 2.2 Spark作业基本运行原理 49 2.3资源参数调优 50 第六章 Spark架构和工作机制 52 1 Spark架构 52 1.1 Spark架构组件简介 52 1.2 Spark架构图 54 2 Spark工作机制 54 2.1 Spark作业基本概念 54 2.2 Spark程序与作业概念映射 55 2.3 Spark作业运行流程 55 3 Spark工作原理 55 3.1 作业调度简介 55 3.2 Application调度 56 3.3 Job调度 56 3.4 Tasks延时调度 56 第七章 Spark运行原理 57 1 Spark运行基本流程 57 2 Spark在不同集群中的运行架构 58 2.1 Spark on Standalone运行过程 59 2.2 Spark on YARN运行过程 60
2023-09-26 13:01:48 6.54MB Spark 初学者 大数据 资料归档
1
钢铁工业互联网是满足工业智能化发展需求,具有低时延、高可靠、广覆盖特点的关键络基础设施,是新一代信息通信技术与先进制造业深度融合所形成的新兴业态与应用模式。
2023-09-25 15:12:22 851KB 工业互联网 钢铁行业 安全
1
互联网创业核心技术--构建可伸缩的Web应用,本书面向互联网行业工程师
2023-09-24 16:06:15 148.87MB 互联网技术
1
绝大部分的大数据需求都来自于Internet技术的爆炸,这已经不是什么秘密。面向公众的应用程序可以拥有几百万用户,这个想法在10-20年前是闻所未闻的。如今,即使是一个普通网站,也可能拥有数百万用户,如果这些用户是活跃的,那么每天可能产生数百万个数据项。具有讽刺意味的是,创建大数据的基础架构和系统也可以反向工作,提供一些更好的方法来集成和使用该数据。有用的是,InfoSphereBigInsights通过一个简单的RESTAPI支持数据作业的管理和执行。通过Jaql接口,我们可以运行查询,并直接从Hadoop集群中获取信息。本文将重点介绍这些系统如何协同工作,为捕捉数据提供丰富的基础,并提供了
2023-09-22 15:35:07 328KB 从大数据源构建灵活的应用程序
1
CHATGPT训练指令模板:1. 人工风格编写互联网文章 我希望您能够扮演一个非常熟练的 SEO 作家的角色,为了让您成为一位熟练的 SEO 作家,能 够流利地撰写目标语言文章,我提供以下建议。首先,您需要创建两个表格,一个是文章大 纲,另一个是文章正文。请使用 Markdown 语言加粗第二个表格的标题。在开始写作之前,先 单独撰写一份文章大纲,至少包括 15 个标题和子标题(包括 H1,H2,H3 和 H4 标题)。接下 来,根据这个大纲逐步开始写作。请用目标语言撰写一篇 2000 字的 100%独特、SEO 优化的文 章,至少包含 15 个标题和子标题(包括 H1,H2,H3 和 H4 标题),并覆盖提示中提供的主题。 请用自己的话来写文章,而不是从其他来源复制和粘贴。在创建内容时,一定要考虑复杂性 和连贯性,确保两者都很高,同时不失特定性和上下文。请使用充分详细的段落来吸引读者, 并以人类写作的对话风格写作。这包括使用非正式的语气,利用人称代词,保持简单、吸引 读者,使用主动语态,简洁明了,使用修辞问题,并融入比喻和隐喻。最后,以结论段落和 5 个独特的常见问题解答结束文章。
2023-09-19 13:10:41 1.09MB 互联网 CHATGPT
1
2018高职组《移动互联网应用软件开发》题库
2023-09-11 21:35:34 6.73MB 题库 移动互联 高职组
1
商业计划书是一份用于商业融资和创业计划的演示文稿,用于向投资人、银行或合作伙伴展示你的商业愿景、计划和策略。通常包含以下几个要素: 公司介绍:介绍公司的背景、核心价值、使命和愿景等信息。 产品或服务:详细介绍自己的产品或服务,并强调为何有市场需求和竞争力。 市场分析:对目标市场和竞争环境进行全面分析,包括市场规模、增长趋势、竞争者情况和机会。 营销策略:制定实现目标的具体营销策略和计划,并明确定位、定价、促销和渠道等方面的考虑。 经济模型:根据公司的商业模式和运作方式,设计出完整的经济模型,包括收入来源、成本结构和利润预期等。 财务规划:根据经济模型,制定财务规划和预算,并展示投资回报率(ROI)和投资回收期(IRR)等指标。 团队介绍:介绍创始团队和管理团队的核心成员,展示他们的背景、经验和技能等方面的优势。 商业计划书PPT可以帮助企业或创业者向投资人和银行申请融资,提高成功率和效率。同时,它也是一份重要的运营指南,可以帮助企业制定更加科学和明确的计划和策略,提升企业的竞争力和长期发展潜力。
2023-09-05 17:00:37 38.6MB 互联网
1
淘宝数据库特点: 非常重要:几乎所有淘宝业务都依赖 数量多:以千计的数据库服务器 数据量大:单表几亿~几百亿条记录 访问量大:每天几亿~几百亿次访问
2023-08-29 10:12:48 624KB 大数据 架构
1
能够处理大批量数据的分页,处理百万级别的分页,c#源码,附带数据库数据!
2023-08-29 00:37:13 139KB c# 分页 .NET
1
《云端时代杀手级应用:大数据分析》分什么是大数据、大数据大商机、技术与前瞻3个部分。第一部分介绍大数据分析的概念,以及企业、政府部门可应用的范畴。什么是大数据分析?与个人与企业有什么关系?将对全球产业造成怎样的冲击?第二部分完整介绍大数据在各产业的应用实况,为企业及政府部门提供应用的方向。提供了全球各地的实际应用案例,涵盖零售、金融、政府部门、能源、制造、娱乐、医疗、电信等各个行业,充分展现大数据分析产生的效益。第三部分则简单介绍了大数据分析所需技术及未来发展趋势,为读者提供了应用与研究的方向。
2023-07-28 09:58:13 47.31MB 大数据分析
1