第3章 Hadoop 2 3.1. 简介 2 3.1.1. 概述 2 3.2. 环境搭建 2 3.2.1. 搭建过程总览 2 3.2.2. 集群规划 3 3.2.3. 电脑虚拟网卡VMnet8设置 3 3.2.4. 克隆机器 5 3.2.5. 设置三台虚拟机的硬盘至少为30G,内存至少为2G 7 3.2.6. 虚拟机网络模式设置为NAT 8 3.2.7. 设置静态IP 8 3.2.8. 修改主机名 9 3.2.9. 设置ip和域名的映射 10 3.2.10. 重启虚拟机让设置生效 10 3.2.11. 第二台和第三台虚拟机重复以上设置 10 3.2.12. 三台机器拍摄快照 10 3.2.13. 三台虚拟机关闭防火墙 11 3.2.14. 三台虚拟机关闭selinux 13 3.2.15. 三台虚拟机设置免密登陆 14 3.2.16. 三台虚拟机设置时钟同步 16 3.2.17. 安装jdk 18 3.2.18. 配置hadoop集群 22 3.3. 常见错误解决方法 36 3.3.1. 查看日志 36 3.3.2. 无法启动hadoop集群的检查方法 37 3.3.3. 执行jps
2022-05-21 12:04:42 4.93MB hadoop
1
项目主要内容: 1.采用Hadoop作为分布式文件文件系统存储数据 2.基于 TensorFlow 复现论文 PNN、DeepFM 3.搭建推荐系统架构,召回、过滤、精排阶段 4.使用 SparkStreaming 进行流计算,不断将用户行为反馈给模型进行计算,提供 下一次推荐服务 5.使用 SparkStreaming 对接 Kafka 源,消费 Kafka 中的实时用户行为数据 6.使用 PNN、DeepFM 进行 CTR 点击评估 目前,几大互联网厂商例如腾讯、百度、阿里已陆续开始使用推荐系统,因为在海量数据的今天,人们已经无法看清自己真正的喜好,所以推荐系统应运而生,像现在快手、抖音等平台都陆续开始引进推荐系统,这些厂商会收集大量用户的观看行为,例如点赞、评论、收藏以及视频观看时间等,基于这些数据会对用户进行分析,帮助用户进行定位自身的兴趣所在,然后基于大数据平台帮助用户拿到它们想要的视频,而且包括百度,它们正在使用广告推荐这种,当我们在搜索引擎中搜索一些关键词时,它们将会根据 query 进行分析进而将一些广告商进行关联,然后在首页为用户推荐一些广告进而增加广告的点击量。
2022-05-21 09:09:08 76.41MB hadoop spark 数据分析 推荐系统
网上搜集的3本spark书籍: Spark快速大数据分析 大数据Spark企业级实战版 深入理解Spark 核心思想与源码分析
2022-05-20 20:48:30 122.05MB spark
1
Spark相关论文资料 (机器学习、数据挖掘、文本分析、推荐系统)
2022-05-20 19:59:46 63.61MB Spark 论文
1
该文档来自Spark Summit 2013峰会上Databricks CTO——Matei Zaharia的主题演讲,他主要就Spark的现状和未来做了详细的阐述。
2022-05-20 19:57:25 953KB Spark Summit 2013 Matei
1
hadoop开发案例hadoop视频教程-GreenplumHadoop大数据应用案例剖析
2022-05-20 19:06:27 4.24MB big data hadoop 文档资料
传统的信息处理技术已难以满足现代数据处理的要求。因此,文中针对云计算时代数据处理计算量大、实时性要求高的特点,研究了基于Hadoop技术的大数据分析应用系统。该系统以Hadoop技术为基本框架,采用HDFS系统作为数据存储的基本单元。并在此基础上,利用Hive方式建立新的数据库系统,结合MySQL数据管理系统和Kylin进行数据分析系统完成对数据的获取、存储、分析、管理功能。最后,通过大数据可视化系统和大数据报表分析系统完成对数据分析结果的呈现。本研究内容对实现大数据的管理和分析具有重要意义。
1
上传大小限制了,分为两段,part2去我的资源中找一下。
2022-05-20 16:14:24 100MB spark
1
使用hive3.1.2和spark3.0.0配置hive on spark的时候,发现官方下载的hive3.1.2和spark3.0.0不兼容,hive3.1.2对应的版本是spark2.3.0,而spark3.0.0对应的hadoop版本是hadoop2.6或hadoop2.7。 所以,如果想要使用高版本的hive和hadoop,我们要重新编译hive,兼容spark3.0.0。除了兼容spark3.0.0外,还将hive3.1.2的guava的版本进行了提升,和hadoop3.x保持一致,以便兼容hadoop3.1.3。
2022-05-20 14:06:07 268.02MB 源码软件 hive spark hadoop
1
Spark安装包:spark-3.1.3-bin-without-hadoop.tgz
2022-05-20 14:06:01 156.48MB spark hadoop 大数据 big
1