kettle的并行_集群和分区当你有很多数据要处理的时候,能够有效地使用所有的计算资源是非常重要的。不管是台个人电脑,还是有数百台服务器,你都想让Kettle能尽可能的使用所有可用的计算资源,并在可接受的时间范围内获取执行结果。 在这一章节,我们将解开kettle的转换和作业在垂直扩展和水平扩展方面的秘密。垂直扩展是尽可能的使用单台服务器上的多CPU核。水平扩展是使用多台机器资源,使他们并行计算。这两种方法都是ETL子系统的一部分(#31,并行/流水线系统)。 章节的第一部分先谈谈转换内部的并行机制和多种使用其进行垂直扩展的方法。然后我们讲解怎样在子服务器集群环境下进行水平扩展转换。
2022-07-13 21:28:22 2.63MB kettle的并行
1
k-means聚类算法及matlab代码目录 介绍 K-均值聚类是一种简单且可扩展的聚类方法,它以一种客观的方式将观察结果划分为k个聚类。 它具有非常广泛的应用,例如图像分割,零售产品分类(Kusrini,2015),温室气体排放等环境问题(Kijewska和Bluszcz,2015)。 K均值聚类可以与其他高级方法结合使用。 例如,它与支持向量机(SVM)一起使用来执行自动文本分类(Perrone和Connell,2000年)。 它也可以用作预处理方法,例如在隐马尔可夫模型(HMM)中初始化(Hu和Zanibbi,2011年)。 它的广泛应用和简单的计算复杂度使k-means聚类成为当今流行的方法之一。 当维数d> 1且簇数k> 1时,找到k均值成本函数的最小值是一个NP难题。 科学家想出了几种启发式方法来找到局部最小值,但是该过程仍然需要大量计算,尤其是对于具有高维特征的大型数据集而言。 因此,我们希望在机器集群上实现k-means启发式方法的并行版本,以在不牺牲算法准确性的情况下显着加快算法的运行速度。 k均值聚类的典型方法是期望最大化(EM)。 E步将点分配到最近的聚类中心,而
2021-12-18 20:06:11 54.51MB 系统开源
1
torque-2.3.6.tar.gz 版本
2021-09-17 10:38:21 5.2MB PBS HPC 并行集群 linux
1
fluent 集群多机并行计算
2021-04-05 13:09:19 921KB fluent 多机并行
1