dlsa分布式最小二乘近似
使用Apache Spark实施
介绍
在这项工作中,我们开发了一种分布式最小二乘近似(DLSA)方法,该方法能够解决分布式系统上的大量回归问题(例如,线性回归,逻辑回归和Cox模型)。 通过使用局部二次形式逼近局部目标函数,我们可以通过对局部估计量进行加权平均来获得组合估计量。 在统计上证明了所得的估计器与全局估计器一样有效。 而且,它只需要一轮通信。 我们使用自适应套索方法进一步基于DLSA估计进行收缩估计。 通过在主节点上使用LARS算法,可以轻松获得该解决方案。 从理论上讲,通过使用新设计的分布式贝叶斯信息准则(DBIC),得出的估计量具有oracle属性,并且选择一致。 广泛的数值研究和航空公司数据集进一步说明了有限的样本性能和计算效率。
整个方法已在的Spark系统中实现。
R软件包dlsa提供了上可用的概念演示。
系统要求
Spark >= 2
1