Linux运维-运维课程MP4频-06-大数据之Hadoop部署-17hadoop单机部署.mp4
2022-06-06 14:00:42 13.56MB linux 运维 big data
Linux运维-运维课程MP4频-06-大数据之Hadoop部署-18hadoop单机部署应用测试.mp4
2022-06-06 14:00:41 26.97MB linux 运维 big data
Linux运维-运维课程MP4频-06-大数据之Hadoop部署-19hadoop伪分布式介绍及软件准
2022-06-06 14:00:40 16.56MB linux 运维 big data
Linux运维-运维课程MP4频-06-大数据之Hadoop部署-21hadoo伪分布式服务启动.mp4
2022-06-06 14:00:39 29MB linux 运维 big data
Linux运维-运维课程MP4频-06-大数据之Hadoop部署-22hadoop伪分布式hdfs文件系统验
2022-06-06 14:00:39 15.66MB linux 运维 big data
Linux运维-运维课程MP4频-06-大数据之Hadoop部署-23yarn介绍.mp4
2022-06-06 14:00:38 19.78MB 运维 linux big data
Linux运维-运维课程MP4频-06-大数据之Hadoop部署-24yarn工作原理.mp4
2022-06-06 14:00:38 32.84MB 运维 linux big data
Linux运维-运维课程MP4频-06-大数据之Hadoop部署-25yarn应用及测试.mp4
2022-06-06 14:00:37 35.47MB 运维 linux big data
本次要实践的数据日志来源于国内某技术学习论坛,该论坛由某培训机构主办,汇聚了众多技术学习者,每天都有人发帖、回帖。至此,我们通过Python网络爬虫手段进行数据抓取,将我们网站数据(2013-05-30,2013-05-31)保存为两个日志文件,由于文件大小超出我们一般的分析工具处理的范围,故借助Hadoop来完成本次的实践。 使用python对原始数据进行清洗,以便后续进行统计分析; 使用Hive对清洗后的数据进行统计分析; 使用Sqoop把Hive产生的统计结果导出到mysql中; 两个日志文件,一共有200MB,符合大数据量级,可以作为推荐系统数据集和hadoop测试集。
2022-05-09 19:14:04 13.7MB 数据分析 hadoop 文档资料 python
1、apache-hive-2.3.5-bin.tar.gz 2、hadoop-2.7.3.tar.gz 3、jdk-8u162-linux-x64.tar.gz 4、mysql-connector-java-5.1.24.tar.gz 5、sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz
2022-05-09 19:14:00 623.33MB ubuntu hadoop 文档资料 linux