ScANNS是Apache Spark的最近邻搜索库,最初由LinkedIn 机器学习算法团队的Namit Katariya开发。它可以在cosine、 jaccard和euclidean 距离空间内的批量离线上下文中进行最近邻搜索
2022-06-05 19:06:21 529KB scala apache spark 源码软件
Spark跨集群bulk load(6-2)
2022-06-05 14:05:55 121KB spark 大数据 big data
1
随机森林 这是 Spark 上随机森林算法的分布式实现。 这与 mllib 中可用的相同算法的实现不同。 在 mllib 中,随机森林算法是通过明智地拆分数据实例来实现的。 此实现是通过明智地拆分数据特征。 这种实现对于具有许多特征的数据非常有用。 我也做了一些即兴创作,删除了一些在这种实现方法中可以避免的类。 一个重要的改进是:现在,randomForest 的用户不需要提供 categoricalFeatureInfo(关于哪些是连续特征,一个分类特征包含多少类别的信息)作为输入。它现在被转换为一个 Option 这个实现会自动检测哪些是连续特征连续特征以及当 categoricalFeatureInfo 在用户输入中被指定为 None 时,分类特征包含多少个类别。
2022-06-04 03:47:54 1.02MB Scala
1
Spark streaming应用运行7天之后,自动退出,日志显示token for xxx(用户名): HDFS_DELEGATION_TOKEN owner=xxxx@xxxx.com, renewer=yarn, realUser=, issueDate=1581323654722, maxDate=1581928454722, sequenceNumber=6445344, masterKeyId=1583) is expired, current time: 2020-02-17 16:37:40,567+0800 expected renewal time: 2020-02-17
2022-06-03 18:57:25 37KB apache ar ark
1
基于html与JavaScript使用spark和MongoDB的商品推荐系统设计与实现
2022-06-03 09:08:25 7.1MB mongodb javascript html spark
The first lock consists of a panel filled with sparkling aems:diamondsrubies.emeraldsand so onBeside the panel is a row of buttonsone corresponding to each type of gem.To unlock the doorLin must press the button corresponding to the most common type of gem in the panel.Note that if there is a tie between the most common type of gem(iethere are equal numbers)then more than one button will need to be pressed.Your task is to write a function first lock(gems) that determines which button(s)should b
2022-06-02 14:03:48 355B python spark 综合资源 开发语言
day01_spark核心概念.pdf
2022-06-01 18:09:20 626KB spark 大数据 big data
1
图计算技术应用探索.pptx; 券商大数据平台实践以及应用探讨—华泰证券李文强.pdf; 基于spark集群的券商个性化推荐系统架构设计最佳实践.pdf 基于Spark的数据湖项目初步实践.pdf 大数据建设及应用分享_20170923.pptx
2022-06-01 16:57:09 5.46MB bigData Spark
1
大数据相关框架学习 本仓库主要存放了一些学习大数据的实战项目代码,项目来源主要来自慕课网 1. 集群搭建 这里面的项目都可以通过搭建单机standalone模式完成整个流程 这学期云计算课程需要使用集群环境,刚好学校有云资源,记录下集群搭建过程 2. 目录结构 hadoop-train Hadoop基础与电商行为日志分析 新手入门大数据 本课程从Hadoop核心技术入手,以电商项目为依托,带领你从0基础开始上手,逐步掌握大数据核心技术(如:HDFS、YARN、MapReduce以及Hive),并使用这些技术进行实战,最终完成电商行为日志分析项目,让你轻松入门大数据! 项目博客 spark-train, spark-data-visualization Spark Streaming实时流处理项目实战 本课程从实时数据产生和流向的各个环节出发,通过集成主流的分布式日志收集框架Flume、分布
2022-06-01 16:43:50 5.25MB Java
1
spark学习资料111
2022-06-01 09:13:52 265.64MB spark 学习 综合资源 大数据
1