ScANNS是Apache Spark的最近邻搜索库,最初由LinkedIn 机器学习算法团队的Namit Katariya开发。它可以在cosine、 jaccard和euclidean 距离空间内的批量离线上下文中进行最近邻搜索
2022-06-05 19:06:21 529KB scala apache spark 源码软件
Apache Spark版本3.1.3。Linux安装包。spark-3.1.3-bin-hadoop3.2.tgz
2022-05-19 19:06:50 221.1MB spark 源码软件 大数据 big
1
1. 训练要点 (1) 使用socket连接方式获取数据源。 (2) DStream的转换操作。 2. 需求说明 从一台服务器的8888端口上收到一个以换行符为分隔符的多行文本,要从中筛选出包含单词error的记录,并把它打印出来。 3. 实现步骤 (1) 启动Spark独立集群模式并启动spark-shell。 spark-shell –master local[2]
2022-05-06 18:12:31 20KB spark 源码软件 大数据 big
spark源码流程图【纯原创自画】
2022-04-06 02:48:49 863KB spark
1
Spark源码解读迷你 RDD、Spark Submit、Job、Runtime、Scheduler、Spark Storage、Shuffle、Standlone算法、Spark On yarn。。。
2022-03-02 16:47:11 5.57MB Spark 源码解读
1
注意:“此仓库包含易受攻击的代码,因此无论任何目的均不得将其用于任何目的。” Lambda上的Spark-自述文件 AWS Lambda是一种无服务器的功能即服务,可快速扩展并以100ms的粒度计费。 我们认为,看看能否在Lambda上运行Apache Spark会很有趣。 这是一个有趣的想法,为了进行验证,我们只是将其砍入原型中以查看其是否有效。 我们能够使它在Spark的调度程序和随机播放区域中进行一些更改而起作用。 由于AWS Lambda的最大运行时间限制为5分钟,因此我们必须改组外部存储。 因此,我们修改了Spark代码的混编部分,以对S3等外部存储进行混编。 这是一个原型,未经测
2022-02-07 10:41:00 19.28MB aws lambda big-data spark
1
泰坦尼克号火花 此存储库是一个示例Spark模型,该模型适用于ModelOp Center和ModelOp Spark Runtime Service。 资产 有三个资产用于运行此示例: 资产类型 回购文件 HDFS路径 描述 模型二进制 titanic.zip /hadoop/demo/titanic-spark/titanic 在此存储库中,Spark模型二进制文件已压缩为zip文件,但必须进行扩展,并且必须在Spark集群HDFS中可用,该模型的init()函数才能运行 投入资产 test.csv /hadoop/demo/titanic-spark/test.csv 模型score()函数的输入文件。 HDFS路径可以根据score()函数的external_inputs参数变化 产出资产 titanic_output.csv /hadoop/demo/titanic-
2021-12-26 21:55:31 48KB Python
1
电影推荐系统 推荐系统(Java,Apache Spark) 在电影镜头1M数据集上使用Apache Spark的交替最小二乘(ALS)算法实施(来自6000名用户的4000个电影的100万评级)实现了协同过滤–模型预测的均方误差(MSE)为0.72,每个用户10条电影推荐。
1
Spark源码解析迷你电子版书籍,该书籍主要解读与跟踪Spark Core与Spark Streaming部分源码,书中内容还添加tachyon部分源码解读。
2021-11-02 16:11:58 6.19MB Spark
1
Spark源码
2021-10-19 14:13:33 14KB Spark源码
1