RDD简介 RDD创建方式 RDD的处理过程 转换算子 行动算子 RDD(Resilient Distributed Datasets弹性分布式数据集)是一个容错的、并行的数据结构,可以简单的把RDD理解成一个提供了许多操作接口的数据集合,和一般数据集不同的是,其实际数据分布存储于一批机器中(内存或磁盘中)。 RDD可以让用户显式地将数据存储到磁盘和内存中,并且还能控制数据的分区。每个RDD都具有五大特征,具体如下。 它是集群节点上的不可改变的、已分区的集合对象; 通过并行转换的方式来创建如(map、filter、join等); 失败自动重建(不是从开始点重建,可以从上一步重建); 可以控制存储级别(内存、磁盘等)来进行重用; 必须是可序列化的;在内存不足时可自动降级为磁盘存储,把RDD存储于磁盘上,这时性能有大的下降但不会差于现在的MapReduce; 对于丢失部分数据分区只需要根据它的lineage就可重新计算出来,而不需要做特定的checkpoint;
2022-09-28 19:05:40 1.19MB spark 分布式
1
耗时半年研发的生产级项目大课,学完对标一线城市30K以上月薪
2022-09-27 19:51:07 382.87MB 分布式 分布式锁 订单项目 分布式事务
1
将分布式电源(DG)以馈线方式接入的配电网系统化简成含“T”节点的配电网络,以母线节点和馈线为树干,将负荷按权值由小到大顺序加入生成树中。以孤岛内功率平衡条件为约束,利用图论分析法中sollin算法求解最小树,进而实现孤岛的划分。算例分析结果表明:基于sollin的图论分析方法能对含DG的配电网进行快速划分,且有效提高了DG的利用率。
1
文档围绕企业中存储相关技术展开,讲述了存储当前面对的场景需求,存储在架构和技术上的具体分类,介绍了DAS、NAS、SAN架构以及块存储、文件存储、对象存储架构,还有RAID技术的具体使用和介绍,最后对比了对象存储中Ceph和MinIO的一些技术指标,用于帮助开发者和架构师进行技术架构决策。可以作为存储类的培训知识教案,给普通开发者进行普及宣传,了解存储的相关知识,理解存储架构。
2022-09-27 14:00:31 992KB 存储 分布式存储
1
只需输入纤维圆心坐标,即可在ABAQUS自动生成2D模型
2022-09-27 13:00:48 1KB abaqus 随机纤维
1
目的是演示对 2 种老式密码的字符/符号频率分布分析(参考英语),即凯撒密码(单字母替代密码)和维吉内尔密码(多字母替代密码)。 在符号频率分布分析下,从凯撒密码的密文中仍然可以观察到语言的统计特征,这导致通过将其重新映射到可能的替代符号来破解密码。 然而,在 Vigenere 密码下,这种统计特性在密文中被修改,以阻止明文消息的相同重映射恢复。 主要执行参考用法: 1. usage_charFrequencyHistogram.m : 不加密,只观察明文分布 2. usage_caesarCipher.m :凯撒密码,独立 - 文本输入3.usage_caesarCipherWithGraphPlot.m:凯撒密码,带有文件输入和加密和解密(明文)分布图 usage_vigenereCipher.m:Vigenere 密码,独立 - 文本输入usage_vigenereCipher
2022-09-26 21:52:44 92KB matlab
1
Distributed synchronization in wireless networks 是一篇很经典的讲述分布式同步的IEEE文章, 这是我对这篇文献阅读后总结的笔记,内有很多个人对文献的独到理解 作者:RayGoodwill 单位:桂林电子科技大学
2022-09-26 16:34:45 311KB 分布式 同步 无线网络
1
海陆分布知识点总结.zip
2022-09-26 13:01:32 42KB 资料
主要介绍了数据分析2020年全国各省高考成绩分布情况,顺便可以用这个数据看每个省市的一本线划分比率,还有其他相关的数据,需要的朋友可以参考下
1
小白进行Hadoop的伪分布式安装的一些步骤与心得,可供参考。
2022-09-25 16:00:38 4.76MB hadoop linux
1