Spark-Terasort
TeraSort是一种流行的基准测试,用于衡量在给定群集上对1 TB随机分布的数据(或所需的任何其他数据量)进行排序的时间。 它最初是用来测量Apache:trade_mark:Hadoop:registered:集群的MapReduce性能的。 在此项目中,代码将在Scala中重写,以测量Spark集群的性能。 它是对Hadoop集群的存储层(HDFS)和计算层(YARN / Spark)进行组合测试的基准。
完整的TeraSort基准测试运行包含以下三个步骤:
通过TeraGen生成输入数据。
在输入数据上运行实际的TeraSort。
通过TeraValidate验证排序的输出数据。
您无需在每次TeraSort运行之前重新生成输入数据(步骤2)。 因此,如果对生成的数据感到满意,则可以跳过第1步(TeraGen),以便以后的TeraSort运行。
包装方式
$ sbt assembly
2022-11-27 02:17:40
24KB
Java
1