PSM-DID, DID, RDD, Stata保姆级程序和数据百科全书式的宝典,含教学视频及实例数据,可自行学习,冲冲冲!!! 由于数据过大,保存至百度网盘,打开word可自行保存,永久有效!!!
2024-03-27 14:32:05 10KB 示例数据
1
大数据~有关于RDD编程初级实践的学习报告 小丸子帮大家总结到位了 希望可以帮助各位 点赞收藏哈!!!
2022-11-22 14:03:17 2.37MB 大数据 spark 操作系统 RDD编程
1
RDD简介 RDD创建方式 RDD的处理过程 转换算子 行动算子 RDD(Resilient Distributed Datasets弹性分布式数据集)是一个容错的、并行的数据结构,可以简单的把RDD理解成一个提供了许多操作接口的数据集合,和一般数据集不同的是,其实际数据分布存储于一批机器中(内存或磁盘中)。 RDD可以让用户显式地将数据存储到磁盘和内存中,并且还能控制数据的分区。每个RDD都具有五大特征,具体如下。 它是集群节点上的不可改变的、已分区的集合对象; 通过并行转换的方式来创建如(map、filter、join等); 失败自动重建(不是从开始点重建,可以从上一步重建); 可以控制存储级别(内存、磁盘等)来进行重用; 必须是可序列化的;在内存不足时可自动降级为磁盘存储,把RDD存储于磁盘上,这时性能有大的下降但不会差于现在的MapReduce; 对于丢失部分数据分区只需要根据它的lineage就可重新计算出来,而不需要做特定的checkpoint;
2022-09-28 19:05:40 1.19MB spark 分布式
1
实验三 RDD编程初级实践 1 实验目的 (1)熟悉Spark的RDD基本操作及键值对操作 (2)熟悉使用RDD编程解决实际具体问题的方法 2 实验平台 Ubantu16.04、Spark-2.1.0 3 实验要求 (1)掌握连接操作 (2)掌握spark-shell交互式编程 (3)编写独立应用程序实现数据去重 (4)编写独立用用程序实现求平均值问题 4 实验内容和步骤(操作结果要附图) 一、连接操作 二、Spark-shell交互编程 三、数据去重 四、求平均值 5 实验总结 通过本次实验,我了解了如何使用RDD编程解决实际问题,并熟悉RDD的基本操作以及键值对操作和用法。注意在求平均值问题中,要注意avg.scala
2022-09-23 09:06:31 6MB spark RDD
1
熟悉并掌握PPT中的RDD算子
2022-09-14 09:06:26 608KB 南华大学 RDD算子 RDD并行编程
1
1.map():每次处理一条数据 2.mapPartition():每次处理一个分区的数据,这个分区的数据处理完后,原RDD中分区的数据才 1. coalesc
2022-08-04 22:00:52 461KB scala
1
评分表(ratings.dat)︰用户ID::电影ID::评分::时间戳 用户表(users.dat):用户ID::性别::年龄:.职业代码::邮编 电影表(movies.dat)︰电影ID::名字:类别 注:年龄和职业代码参见READM 1.男女用户的比例 2.每个用户的平均评分中,排名前十和最后十名的用户及其评分分别是多少 3.按性别计算每部电影的平均得分 4.过滤掉评分数据不够250条的电影,按性别计算每部电影的平均得分 5.男女观众分别最喜欢的前10部电影 6.男女观众评分差别最大的10部电影 7.所有观众评分分歧最大的10部电影(电影评分标准差大者,分歧则大)
2022-07-06 09:12:07 246KB spark rdd
1
DataFrame是一个组织成命名列的数据集。它在概念上等同于关系数据库中的表或R/Python中的数据框架,但其经过了优化。DataFrames可以从各种各样的源构建,例如:结构化数据文件,Hive中的表,外部数据库或现有RDD。 DataFrame API 可以被Scala,Java,Python和R调用。 在Scala和Java中,DataFrame由Rows的数据集表示。 在Scala API中,DataFrame只是一个类型别名Dataset[Row]。而在Java API中,用户需要Dataset用来表示DataFrame。 在本文档中,我们经常将Scala/Java数据
2022-06-19 22:28:20 56KB ar ark dataframe
1
spark rdd函数大全。spark rdd操作为core操作,虽然后续版本主要以dataset来操作,但是rdd操作也是不可忽略的一部分。
2022-05-14 14:12:41 39KB sparkrdd rdd
1
spark rdd 实战 ,基本语法
2022-04-06 02:48:42 550KB spark 大数据 big data
1