dlsa分布式最小二乘近似 使用Apache Spark实施 介绍 在这项工作中,我们开发了一种分布式最小二乘近似(DLSA)方法,该方法能够解决分布式系统上的大量回归问题(例如,线性回归,逻辑回归和Cox模型)。 通过使用局部二次形式逼近局部目标函数,我们可以通过对局部估计量进行加权平均来获得组合估计量。 在统计上证明了所得的估计器与全局估计器一样有效。 而且,它只需要一轮通信。 我们使用自适应套索方法进一步基于DLSA估计进行收缩估计。 通过在主节点上使用LARS算法,可以轻松获得该解决方案。 从理论上讲,通过使用新设计的分布式贝叶斯信息准则(DBIC),得出的估计量具有oracle属性,并且选择一致。 广泛的数值研究和航空公司数据集进一步说明了有限的样本性能和计算效率。 整个方法已在的Spark系统中实现。 R软件包dlsa提供了上可用的概念演示。 系统要求 Spark >= 2
2022-05-16 20:25:16 105KB spark distributed-computing pyspark spark-ml
1
文章《windows10配置spark与pyspark》安装包第一部分,由于文件较多,分两批上传,共计3.8元,每批1.9元
2022-05-16 09:09:36 628.95MB spark 大数据 big data
文章《windows10配置spark与pyspark》安装包02,安装包较多分两批上传,每批1.9元
2022-05-16 09:09:35 768.84MB spark 文档资料 大数据 big
总览 使用AWS EMR,Spark,PySpark,Zeppelin和Airbnb的Superset分析芝加哥市区出租车行程数据集 芝加哥市出租车旅行数据集 步骤1:数据整形/合并 分析原始数据 执行基本转换 重命名列 数据类型变更 添加新列 筛选行 筛选栏 执行基本数据处理并将Spark DataFrame保存为Parquet格式。 以下是所有转换后的Spark DataFrame模式。 root | -- TripID: string (nullable = true) | -- TaxiID: string (nullable = true) | -- TripStartTS:
2022-05-11 09:08:15 941KB spark superset data-visualization pyspark
1
星火森林 隔离林(iForest)是关注异常隔离的有效模型。 iForest使用树结构来对数据建模,与正常点相比,iTree隔离离树根更近的异常。 通过iForest模型计算异常分数,以测量数据实例的异常。 越高,越异常。 有关iForest的更多详细信息,请参见以下论文:[1]和[2]。 我们在Spark上设计并实现了分布式iForest,该iForest通过基于模型的并行性进行训练,并通过基于数据的并行性来预测新的数据集。 它通过以下步骤实现: 从数据集中采样数据。 为每个iTree采样数据实例并将其分组。 如该论文所述,用于构建每棵树的样本数量通常不是很大(默认值256)。 因此,我们可以构造采样对RDD,其中每个行键是树索引,行值是一组树的采样数据实例。 通过地图操作并行训练和构建每个iTree,并收集所有iTree来构建iForest模型。 使用收集的iForest模
2022-05-03 16:15:24 46KB spark pyspark anomaly-detection spark-ml
1
对数据探索分析,进行模型训练,测试数据集评估结果,建立可预测客户流失的模型,获取可能流失的用户名单。
2022-04-25 10:05:41 100KB python 机器学习 文档资料 开发语言
sample_spark3 如何使用findspark和pyspark使用spark3
2022-04-23 10:55:23 2KB JupyterNotebook
1
Python大数据处理库 PySpark实战PPT课件
2022-04-15 13:15:03 4.13MB python 开发语言 Spark
1
Python大数据处理库 PySpark实战-源代码
2022-04-15 13:15:02 1.82MB python 开发语言 Spark
1
pyspark-3.2.1
2022-04-06 14:07:48 268.33MB spark python
1