apache-hive-3.1.3-bin.tar.gz apache-zookeeper-3.5.10-bin.tar.gz hadoop-3.3.3.tar.gz spark-3.2.1-bin-hadoop3.2.tgz mysql-8.0.29-1.el8.x86_64.rpm-bundle
2022-06-17 19:04:43 751.65MB myslq8
1
通过3台虚拟机搭建Hadoop集群的简单实验过程,希望可以帮到有需要的朋友。
2022-06-17 19:01:15 8.41MB Hadoop
1
Hadoop电影数据集,包含字段说明
2022-06-17 18:04:51 28KB hadoop 豆瓣
用-Hadoop-进行分布式数据处理
2022-06-17 14:09:12 903KB hadoop 大数据 分布式 数据处理
ZooKeeper由雅虎研究院开发,是Google Chubby的开源实现,后来托管到Apache,于2010年11月正式成为Apache的顶级项目。 ZooKeeper是一个经典的分布式数据一致性解决方案,致力于为分布式应用提供一个高性能、高可用,且具有严格顺序访问控制能力的分布式协调服务。 分布式应用程序可以基于ZooKeeper实现数据发布与订阅、负载均衡、命名服务、分布式协调与通知、集群管理、Leader选举、分布式锁、分布式队列等功能。 在Zookeeper的官网上有这么一句话:ZooKeeper is a centralized service for maintaining configuration information, naming, providing distributed synchronization, and providing group services. 上传到文件里面有zookeeper的压缩包以及详细记录的zookeeper的安装过程,大家可以按照步骤一步一步的来进行安装。
2022-06-17 14:09:11 705KB Hadoop
1
针对本次实验,我们需要用到Hadoop集群作为模拟大数据的分析软件,集群环境必须要包括,hdfs,hbase,hive,flume,sqoop等插件,最后结合分析出来的数据进行可视化展示,需要用到Python(爬取数据集,可视化展示)或者echarts等可视化工具。 豆瓣用户每天都在对“看过”的电影进行“很差”到“力荐”的评价,豆瓣根据每部影片看过的人数以及该影片所得的评价等综合数据,通过算法分析产生豆瓣电影 Top 250。 为了分析电影产业的发展趋势,本次实验需要对这些信息做统计分析。 注意:豆瓣网站的数据形式为文本文件(必须将导入到hive中做处理)。也可以为CSV文件,例如下图:
豆瓣用户每天都在对“看过”的电影进行“很差”到“力荐”的评价,豆瓣根据每部影片看过的人数以及该影片所得的评价等综合数据,通过算法分析产生豆瓣电影 Top 250。 为了分析电影产业的发展趋势,本次实验需要对这些信息做统计分析。 注意:豆瓣网站的数据形式为文本文件(必须将导入到hive中做处理)。也可以为CSV文件,例如下图: 针对本次实验,我们需要用到Hadoop集群作为模拟大数据的分析软件,集群环境必须要包括,hdfs,hbase,hive,flume,sqoop等插件,最后结合分析出来的数据进行可视化展示,需要用到Python(爬取数据集,可视化展示)或者echarts等可视化工具。
Hadoop豆瓣电影数据分析(Hadoop)操作源码
2022-06-17 09:10:52 7KB Hadoop
HADOOP大数据平台系统思路流程图
2022-06-17 09:10:52 46KB hadoop 大数据 流程图
本实验报告为厦门大学计算机科学系 林子雨 博士/助理教授《大数据处理技术Spark》课程在学期结束后的“大作业”。Spark课程实验案例:淘宝双11数据分析与预测课程案例,由厦门大学数据库实验室团队开发,旨在满足全国高校大数据教学对实验案例的迫切需求。本案例涉及数据预处理、存储、查询和可视化分析等数据处理全流程所涉及的各种典型操作,涵盖Linux、MySQL、Hadoop、Hive、Sqoop、Eclipse、ECharts、Spark等系统和软件的安装和使用方法。本报告含实验环境、实验内容、实验内容截图、遇到的问题及解决方案、心得体会。
2022-06-17 09:10:49 4.82MB 大数据 Spark Linux MySQL