spark-sql_2.11-2.1.3-SNAPSHOT_bak.jar
2022-05-18 22:37:01 6.35MB spark-sql_2.11-2
1
spark-streaming-flume-sink_2.11-2.0.0.jar的jar包。
2022-05-18 20:07:43 85KB spark
1
K-Means算法是一种基于距离的聚类算法,采用迭代的方法,计算出K个聚类中心,把若干个点聚成K类。 MLlib实现K-Means算法的原理是,运行多个K-Means算法,每个称为run,返回最好的那个聚类的类簇中心。初始的类簇中心,可以是随机的,也可以是KMean||得来的,迭代达到一定的次数,或者所有run都收敛时,算法就结束。 用Spark实现K-Means算法,首先修改pom文件,引入机器学习MLlib包: org.apache.spark spark-mllib_2.10</
2022-05-18 14:53:50 52KB ar k-means k-means算法
1
spark-mllib_2.11-2.1.3-SNAPSHOT.jars
2022-05-18 13:45:16 5.91MB spark-mllib_2.11
1
linux环境下的大数据环境搭建,
2022-05-17 20:24:23 108.13MB spark 大数据 hbase
1
经常有粉丝问我该选flink和spark streaming? 业务选型对新手来说是件非常困难的事情,对于经验丰富又经常思考的人来说就很简单。 选型的时候个人准备知识: 1.深入了解框架。 2.深入了解框架的周边生态。 3.深入了解你自己的业务场景。 就拿flink和spark streaming来说吧,要是理解其设计灵感就会很简单的理解该选谁: spark 是做批处理起家,然后以微批的形式开创了流处理。使用场景很显而易见了,允许一点延迟,批量处理,吞吐量优先地,而且spark streaming贡献者这么多依然很稳定。 flink是以流处理起家,然后以流处理的灵感去创建批处理。那就很适合实时
2022-05-17 11:40:08 76KB ar ark fl
1
dlsa分布式最小二乘近似 使用Apache Spark实施 介绍 在这项工作中,我们开发了一种分布式最小二乘近似(DLSA)方法,该方法能够解决分布式系统上的大量回归问题(例如,线性回归,逻辑回归和Cox模型)。 通过使用局部二次形式逼近局部目标函数,我们可以通过对局部估计量进行加权平均来获得组合估计量。 在统计上证明了所得的估计器与全局估计器一样有效。 而且,它只需要一轮通信。 我们使用自适应套索方法进一步基于DLSA估计进行收缩估计。 通过在主节点上使用LARS算法,可以轻松获得该解决方案。 从理论上讲,通过使用新设计的分布式贝叶斯信息准则(DBIC),得出的估计量具有oracle属性,并且选择一致。 广泛的数值研究和航空公司数据集进一步说明了有限的样本性能和计算效率。 整个方法已在的Spark系统中实现。 R软件包dlsa提供了上可用的概念演示。 系统要求 Spark >= 2
2022-05-16 20:25:16 105KB spark distributed-computing pyspark spark-ml
1
文章《windows10配置spark与pyspark》安装包第一部分,由于文件较多,分两批上传,共计3.8元,每批1.9元
2022-05-16 09:09:36 628.95MB spark 大数据 big data
文章《windows10配置spark与pyspark》安装包02,安装包较多分两批上传,每批1.9元
2022-05-16 09:09:35 768.84MB spark 文档资料 大数据 big
mapreduce、spark
2022-05-15 14:08:16 86KB hadoop spark 学习 综合资源
1