flink-1.10.2-bin-scala_2.12.tgz
2022-06-15 14:07:44 267.63MB 实时大数据
1
flink-1.12.7-bin-scala_2.12.tgz
2022-06-15 14:07:44 309.17MB 实时大数据
1
Apache Kafka 3.2.0 (Scala 2.12 :kafka_2.12-3.2.0.tgz) 是一个开源分布式事件流平台,被数千家公司用于高性能数据管道、流分析、数据集成和关键任务应用程序。) 是一个开源分布式事件流平台,被数千家公司用于高性能数据管道、流分析、数据集成和关键任务应用程序。
2022-06-14 09:09:50 99.18MB ApacheKafka Kafka
Apache Kafka 3.2.0 (Scala 2.13 :kafka_2.13-3.2.0.tgz) 是一个开源分布式事件流平台,被数千家公司用于高性能数据管道、流分析、数据集成和关键任务应用程序。) 是一个开源分布式事件流平台,被数千家公司用于高性能数据管道、流分析、数据集成和关键任务应用程序。
2022-06-14 09:09:49 99.14MB ApacheKafka Kafka
在官网上下载太慢了,上传到CSDN,在这里下载,比国外网站要快很多,省了很多时间。
2022-06-10 13:07:57 63.9MB idea插件
1
ScANNS是Apache Spark的最近邻搜索库,最初由LinkedIn 机器学习算法团队的Namit Katariya开发。它可以在cosine、 jaccard和euclidean 距离空间内的批量离线上下文中进行最近邻搜索
2022-06-05 19:06:21 529KB scala apache spark 源码软件
编写一个合理的、可理解的、全文搜索引擎需要多少行代码?此存储库中的代码可以简单快速地概述向量空间模型 (tf-idf) 内存索引; 在线计算的规范和 IDF; 查询词之间的默认 OR 运算符; 从单个文件中为每行索引一个文档。 从文件中读取停用词
2022-06-05 19:06:19 209KB scala 综合资源 开发语言 后端
随机森林 这是 Spark 上随机森林算法的分布式实现。 这与 mllib 中可用的相同算法的实现不同。 在 mllib 中,随机森林算法是通过明智地拆分数据实例来实现的。 此实现是通过明智地拆分数据特征。 这种实现对于具有许多特征的数据非常有用。 我也做了一些即兴创作,删除了一些在这种实现方法中可以避免的类。 一个重要的改进是:现在,randomForest 的用户不需要提供 categoricalFeatureInfo(关于哪些是连续特征,一个分类特征包含多少类别的信息)作为输入。它现在被转换为一个 Option 这个实现会自动检测哪些是连续特征连续特征以及当 categoricalFeatureInfo 在用户输入中被指定为 None 时,分类特征包含多少个类别。
2022-06-04 03:47:54 1.02MB Scala
1
最新版本Spark2.1.1 java+scala官方API CHM(自己制作,有点小问题)
2022-05-31 13:09:04 26.06MB SparkAPI
1
很好的scala帮助文档,中文,介绍的很基础,清晰易懂,适合初学者和随时查阅
2022-05-31 13:02:56 1.5MB scala
1