spark streaming
2022-05-05 09:06:43 1.93MB spark
1
spark streaming
2022-05-05 09:06:42 1.17MB spark 大数据 big data
1
星火森林 隔离林(iForest)是关注异常隔离的有效模型。 iForest使用树结构来对数据建模,与正常点相比,iTree隔离离树根更近的异常。 通过iForest模型计算异常分数,以测量数据实例的异常。 越高,越异常。 有关iForest的更多详细信息,请参见以下论文:[1]和[2]。 我们在Spark上设计并实现了分布式iForest,该iForest通过基于模型的并行性进行训练,并通过基于数据的并行性来预测新的数据集。 它通过以下步骤实现: 从数据集中采样数据。 为每个iTree采样数据实例并将其分组。 如该论文所述,用于构建每棵树的样本数量通常不是很大(默认值256)。 因此,我们可以构造采样对RDD,其中每个行键是树索引,行值是一组树的采样数据实例。 通过地图操作并行训练和构建每个iTree,并收集所有iTree来构建iForest模型。 使用收集的iForest模
2022-05-03 16:15:24 46KB spark pyspark anomaly-detection spark-ml
1
此为经典的网站日志点击流分析数据,每行数据的内容有访问时间,请求的url,来源url,ip,浏览器类型,响应码,请求类型等等
2022-05-03 15:15:05 2.89MB mr sparkcore
1
主要介绍了详解如何使用Spark和Scala分析Apache访问日志,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
2022-05-02 11:03:45 54KB Spark Scala Apache访问日志 Spark
1
目录 第1章 大数据技术概述免费 第2章 Spark的设计与运行原理免费 第3章 Spark环境搭建和使用方法 第4章 RDD编程 第5章 Spark SQL 第6章 Spark Streaming 第7章 Spark MLlib
2022-05-01 18:06:01 33.85MB spark
著名电路模拟实验软件,可作为电子电路基本教学实验用途。
2022-05-01 12:04:30 3.46MB bright spark
1
openfire + spark 视频通话 war包放在openfire的plugins下重启openfire jar包spark的plugins目录下即可实现视频聊天功能
2022-04-30 15:41:39 34.45MB openfire + spark
1
聚类分析和分类分析是机器学习的重要领域,K-means算法和随机 森林算法分别是聚类分析和分类分析中最常用的算法之一。然而, K-means算法和随机森林算法都存在一些限制和缺点。K-means算法中 的群组数目K值需要使用者预先设定,这对使用者提出了较高的要求, 经验不足的使用者设定的K值的准确性也存在一定的问题;随机森林算 法进行分类决策时,无法区别对待每一棵决策树,导致准确性差的决策 树会影响算法整体的准确性。在实际应用中,待分析的数据集存在各种 各样的问题。包含较多孤立点的数据集会增加K-means算法的迭代次数, 提高算法的复杂度,降低算法的准确性;对于包含噪声特征和冗余特征 的数据集,随机森林算法的准确性会受到影响,错误率会提高。上述这 些问题提高了用户使用K-means算法和随机森林算法的难度。 另一方面,基于分布式计算的机器学习框架得到了广泛应用。然而 现有的机器学习框架受限于机器学习算法自身的限制和缺点,要求用户 进行数据挖掘和分析时,需要掌握足够的机器学习算法知识,导致这些 机器学习框架的应用门槛较高。 针对上述问题,本文以实验室承担的某省交通物流云计算平台建设 项
2022-04-29 10:05:38 4.03MB spark 机器学习 大数据 big
随着云计算与分布式集群技术的发展,大数据概念在容量、价值等方面都有 了更广的扩展和延伸,机器学习技术近年来也得到了前所未有的重视。本文主要 针对传统数据挖掘算法无法处理海量数据,近年来比较流行的MapReduce对机 器学习算法不能有效并行化运行等问题,提出基于Spark来构建一个用于大规模 机器学习的平台,该平台不仅能够兼容Hadoop集群利用现有计算资源灵活高效 地处理海量数据,而且还具有良好的可扩展性,能够满足各类机器学习任务场景 的需求。 本文完成了如下几个方面的工作: 论文主要针对机器学习任务中的常见场景,基于Spark平台设计和实现了其 中经典的算法,包括并行化的线性回归、支持向量机、KMeans聚类算法,基于 图计算模型抽象的矩阵分解、PageRank算法,以及数据流KMeans聚类算法。 算法工作均以大规模机器学习的相关基础理论为有效支持,充分体现平台的运行 效率和可扩展性; 在算法设计过程中,本文针对大数据场景对经典算法进行一些改进优化工作。 例如,基于集成学习理论方法,采用Bagging策略来提高模型的稳定性;为了提 升计算效率,引入了基于采样的子梯度模型优化方法;
2022-04-29 10:05:37 117.49MB spark 机器学习 文档资料 大数据