星火森林
隔离林(iForest)是关注异常隔离的有效模型。 iForest使用树结构来对数据建模,与正常点相比,iTree隔离离树根更近的异常。 通过iForest模型计算异常分数,以测量数据实例的异常。 越高,越异常。
有关iForest的更多详细信息,请参见以下论文:[1]和[2]。
我们在Spark上设计并实现了分布式iForest,该iForest通过基于模型的并行性进行训练,并通过基于数据的并行性来预测新的数据集。 它通过以下步骤实现:
从数据集中采样数据。 为每个iTree采样数据实例并将其分组。 如该论文所述,用于构建每棵树的样本数量通常不是很大(默认值256)。 因此,我们可以构造采样对RDD,其中每个行键是树索引,行值是一组树的采样数据实例。
通过地图操作并行训练和构建每个iTree,并收集所有iTree来构建iForest模型。
使用收集的iForest模
1