spark-2.0.0-bin-hadoop2.7.tgz.zip 提示:先解压再使用,最外层是zip文件
2024-06-20 17:18:50 177.76MB spark
1
spark的调优案例分享
2024-06-16 19:38:07 4.38MB spark
1
linux的spark新版本,匹配hadoop2.7版本,spark-3.2.1-bin-hadoop2.7.tgz
2024-06-12 19:45:48 260.01MB spark linux
1
此套面试题来自于各大厂的真实面试题及常问的知识点,如果能理解吃透这些问题, 你的大数据能力将会大大提升,进入大厂指日可待,包含Hadoop spark flink hive hbase kafka doris clickhouse
2024-06-10 23:58:37 2.1MB hadoop spark
1
spark考试(练习题)编程!
2024-05-29 09:51:45 152KB spark
1
Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。 Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。 Spark 是在 Scala 语言中实现的,它将 Scala 用作其应用程序框架。与 Hadoop 不同,Spark 和 Scala 能够紧密集成,其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。
2024-05-20 12:40:42 381.9MB spark
1
手动的 指示 按此顺序运行pre-install.sh , download.sh , install.sh 。 编辑文件/opt/kafka_2.10-0.8.2.2/config/server.properties 。 在第20行中设置broker.id。 在第28行中添加您的hostname:port。 在第118行中添加Zookeeper主机的地址。 编辑文件/opt/kibana-4.1.2-linux-x64/config/kibana.yml 。 在第8行中添加Elasticsearch主机的地址。 执行命令 在节点(例如dbnode)上运行Elasticsearch。 /opt/elasticsearch-1.7.2/bin/elasticsearch 运行Kafka zookeeper,然后运行节点上的服务器(例如node0)。 /opt/kafka_2
2024-05-08 10:22:52 14KB Shell
1
前言 由于logstash内存占用较大,灵活性相对没那么好,ELK正在被EFK逐步替代.其中本文所讲的EFK是Elasticsearch+Fluentd+Kfka,实际上K应该是Kibana用于日志的展示,这一块不做演示,本文只讲述数据的采集流程. 前提 docker docker-compose apache kafka服务 架构 数据采集流程 数据的产生使用cadvisor采集容器的监控数据并将数据传输到Kafka. 数据的传输链路是这样: Cadvisor->Kafka->Fluentd->elasticsearch 每一个服务都可以横向扩展,添加服务到日志系统中. 配置文件 dock
2024-05-08 10:13:29 102KB ar arch
1
使用docker离线安装 zookpeer,kafka,kafka-ui,资源包含镜像,docker-compose文件,以及一键启动脚本。
2024-04-30 10:35:57 571.27MB docker kafka kafka ui
1
基于Spark框架的新闻推荐系统的设计与实现
2024-04-26 15:10:34 6.76MB
1