spark官方文档中文版.pdf !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!1111111111111111
2022-05-19 09:09:27 2.61MB spark
1
本教程为授权出品 一、课程简介数据仓库(Data Warehouse,可简写为DW或DWH),是面向分析的集成化数据环境,为企业决策制定过程,提供系统数据支持的战略集合,是国内外各大公司正在重点投入的战略级技术领域。 二、课程内容《大数据电商数仓项目实战》视频教程,从项目架构的搭建,到数据采集模块的设计、数仓架构的设计、实战需求实现、即席查询的实现,我们针对国内目前广泛使用的Apache原生框架和CDH版本框架进行了分别介绍,Apache原生框架介绍中涉及到的技术框架包括Flume、Kafka、Sqoop、MySql、HDFS、Hive、Tez、Spark、Presto、Druid等,CDH版本框架讲解包括CM的安装部署、Hadoop、Zookeeper、Hive、Flume、Kafka、Oozie、Impala、HUE、Kudu、Spark的安装配置,透彻了解不同版本框架的区别联系,将大数据全生态系统前沿技术一网打尽。在过程中对大数据生态体系进行了系统的讲解,对实际企业数仓项目中可能涉及到的技术点都进行了深入的讲解和探讨。同时穿插了大量数仓基础理论知识,让你在掌握实战经验的同时能
1
spark-core_2.11-2.1.3-SNAPSHOT.jar
2022-05-18 22:38:17 11.39MB spark-core_2.11-
1
spark-sql_2.11-2.1.3-SNAPSHOT_bak.jar
2022-05-18 22:37:01 6.35MB spark-sql_2.11-2
1
spark-streaming-flume-sink_2.11-2.0.0.jar的jar包。
2022-05-18 20:07:43 85KB spark
1
K-Means算法是一种基于距离的聚类算法,采用迭代的方法,计算出K个聚类中心,把若干个点聚成K类。 MLlib实现K-Means算法的原理是,运行多个K-Means算法,每个称为run,返回最好的那个聚类的类簇中心。初始的类簇中心,可以是随机的,也可以是KMean||得来的,迭代达到一定的次数,或者所有run都收敛时,算法就结束。 用Spark实现K-Means算法,首先修改pom文件,引入机器学习MLlib包: org.apache.spark spark-mllib_2.10</
2022-05-18 14:53:50 52KB ar k-means k-means算法
1
spark-mllib_2.11-2.1.3-SNAPSHOT.jars
2022-05-18 13:45:16 5.91MB spark-mllib_2.11
1
linux环境下的大数据环境搭建,
2022-05-17 20:24:23 108.13MB spark 大数据 hbase
1
经常有粉丝问我该选flink和spark streaming? 业务选型对新手来说是件非常困难的事情,对于经验丰富又经常思考的人来说就很简单。 选型的时候个人准备知识: 1.深入了解框架。 2.深入了解框架的周边生态。 3.深入了解你自己的业务场景。 就拿flink和spark streaming来说吧,要是理解其设计灵感就会很简单的理解该选谁: spark 是做批处理起家,然后以微批的形式开创了流处理。使用场景很显而易见了,允许一点延迟,批量处理,吞吐量优先地,而且spark streaming贡献者这么多依然很稳定。 flink是以流处理起家,然后以流处理的灵感去创建批处理。那就很适合实时
2022-05-17 11:40:08 76KB ar ark fl
1
dlsa分布式最小二乘近似 使用Apache Spark实施 介绍 在这项工作中,我们开发了一种分布式最小二乘近似(DLSA)方法,该方法能够解决分布式系统上的大量回归问题(例如,线性回归,逻辑回归和Cox模型)。 通过使用局部二次形式逼近局部目标函数,我们可以通过对局部估计量进行加权平均来获得组合估计量。 在统计上证明了所得的估计器与全局估计器一样有效。 而且,它只需要一轮通信。 我们使用自适应套索方法进一步基于DLSA估计进行收缩估计。 通过在主节点上使用LARS算法,可以轻松获得该解决方案。 从理论上讲,通过使用新设计的分布式贝叶斯信息准则(DBIC),得出的估计量具有oracle属性,并且选择一致。 广泛的数值研究和航空公司数据集进一步说明了有限的样本性能和计算效率。 整个方法已在的Spark系统中实现。 R软件包dlsa提供了上可用的概念演示。 系统要求 Spark >= 2
2022-05-16 20:25:16 105KB spark distributed-computing pyspark spark-ml
1