华为大数据存储教程系列
2023-10-11 21:59:02 5.57MB 华为 存储 大数据
1
本系统是基于大数据的音乐推荐系统,SSM、HTML、CSS等技术实现了音乐播发及音乐推荐平台,此平台具有用户登录、歌曲搜索、用户喜欢歌曲推荐、热门歌曲推荐等主要功能。通过音乐推荐系统,系统会根据用户喜好推荐歌曲,用户操作更少,使用体验更加舒适便捷。使用HTML+CSS网页编程技术、JavaScript及JAVA语言,后端采用SSM框架技术,整个系统采用前后端分离的方式。数据库使用MySQL。大数据处理使用Hadoop对用户推荐歌曲 本音乐网站的客户端和管理端使用 VUE 框架来实现,服务端使用 Spring Boot + MyBatis 来实现,数据库使用了 MySQL。 后端:Spring Boot + MyBatis + Hadoop 前端:Vue + Vue-Router + Vuex + Axios + Element-UI 开发环境: JDK: jdk1.8.0_221 MySQL:5.7.35 for Win64 (x86_64) Node:v10.16.0 IDE:IntelliJ IDEA 2021、VSCode/WebStorm
2023-10-11 17:04:22 6.29MB 大数据 毕设 vue 音乐
1
最近,Analysis with Programming加入了Planet Python。作为该网站的首批特约博客,我这里来分享一下如何通过Python来开始数据分析。具体内容如下:     数据导入         导入本地的或者web端的CSV文件;     数据变换;     数据统计描述;     假设检验         单样本t检验;     可视化;     创建自定义函数。 数据导入 这是很关键的一步,为了后续的分析我们首先需要导入数据。通常来说,数据是CSV格式,就算不是,至少也可以转换成CSV格式。在Python中,我们的操作如下: import pandas as pd
2023-10-07 17:28:02 444KB python python函数 大数据
1
南京工程学院大数据科学导论,上课PPT,期末复习笔记
2023-10-07 07:52:24 47.58MB 文档资料 big data 大数据
1
为在大学生中倡导学习统计、应用统计的良好氛围,促进大学生关注经济社会热点难点问题,适应大数据时代下高校及统计部门对统计人才的培养要求,中国统计教育学会、全国应用统计专业学位研究生教育指导委员会联合举办2021年(第七届)全国大学生统计建模大赛,本届大赛主题为“数据新动能的统计测度研究”,旨在提高大学生数据挖掘、数据分析、运用统计方法及计算机技术处理数据的能力,加强创新思维意识,助力推进统计现代化改革。经过一年的筹备、征集和筛选评议工作,最终选出这26篇优秀论文集结成册,展示当代大学生的统计应用能力和研究水平。 欢迎扫描以上二维码订阅 扫一扫在手机打开 上一篇: 《2022年(第八届)... 下一篇: 关于公布2022年(第... 评论262 0/150 提交 热门评论 相关推荐 关于公布2023年(第九届)全国大学生统计建模大赛报名信息的通知 大赛动态 2023-04-10 10:00595451143 《2023年(第九届)全国大学生统计建模大赛主题解读》(视频) 大赛动态 2023-04-06 09:0046299990 “全国大学生统计建模大赛”成功入
2023-09-29 15:30:40 407.37MB 大数据 k12 数据挖掘 数据分析
1
林子雨的书 关于大数据的 如果想要学习大数据的同学 又是恰好刚刚入门的话推荐这本
2023-09-28 08:44:14 78.9MB Hadoop HBase HDFS
1
Spark-Core文档是本人经三年总结笔记汇总而来,对于自我学习Spark核心基础知识非常方便,资料中例举完善,内容丰富。具体目录如下: 目录 第一章 Spark简介与计算模型 3 1 What is Spark 3 2 Spark简介 3 3 Spark历史 4 4 BDAS生态系统 4 5 Spark与Hadoop的差异 5 6 Spark的适用场景 6 7 Spark成功案例 6 第二章 Spark开发环境搭建 8 1 Spark运行模式 8 2 Spark环境搭建 8 2.1Scala的安装 8 2.2Spark的单节点配置 9 2.3Spark-Standalone集群配置 9 2.4Spark-on-Yarn模式配置 12 2.5Spark-on-Mesos模式配置 13 2.6Hive-on-Spark配置 13 第三章 Spark计算模型 15 1 RDD编程 15 1.1弹性分布式数据集RDD 15 1.2构建RDD对象 15 2RDD操作 15 2.1将函数传递给Spark 16 2.2了解闭包 16 2.3Pair RDD模型 17 2.4Spark常见转换操作 18 2.5Spark常见行动操作 20 2.6RDD持久化操作 21 2.7注意事项 23 2.7并行度调优 24 2.8分区方式 25 3Examle:PageRank 27 第四章 Spark编程进阶 29 1共享变量 29 1.1累加器 30 1.2广播变量 31 2基于分区进行操作 32 3与外部程序间的管道 33 4数值RDD的操作 34 5 Spark Shuffle机制 34 第五章 Spark调优与调试 39 1开发调优: 40 1.1调优概述 40 1.2原则一:避免创建重复的RDD 40 1.3原则二:尽可能复用同一个RDD 41 1.4原则三:对多次使用的RDD进行持久化 42 1.5原则四:尽量避免使用shuffle类算子 43 1.6原则五:使用map-side预聚合的shuffle操作 44 1.7原则六:使用高性能的算子 45 1.8原则七:广播大变量 46 1.9原则八:使用Kryo优化序列化性能 47 1.10原则九:优化数据结构 48 2资源调优 48 2.1调优概述 48 2.2 Spark作业基本运行原理 49 2.3资源参数调优 50 第六章 Spark架构和工作机制 52 1 Spark架构 52 1.1 Spark架构组件简介 52 1.2 Spark架构图 54 2 Spark工作机制 54 2.1 Spark作业基本概念 54 2.2 Spark程序与作业概念映射 55 2.3 Spark作业运行流程 55 3 Spark工作原理 55 3.1 作业调度简介 55 3.2 Application调度 56 3.3 Job调度 56 3.4 Tasks延时调度 56 第七章 Spark运行原理 57 1 Spark运行基本流程 57 2 Spark在不同集群中的运行架构 58 2.1 Spark on Standalone运行过程 59 2.2 Spark on YARN运行过程 60
2023-09-26 13:01:48 6.54MB Spark 初学者 大数据 资料归档
1
绝大部分的大数据需求都来自于Internet技术的爆炸,这已经不是什么秘密。面向公众的应用程序可以拥有几百万用户,这个想法在10-20年前是闻所未闻的。如今,即使是一个普通网站,也可能拥有数百万用户,如果这些用户是活跃的,那么每天可能产生数百万个数据项。具有讽刺意味的是,创建大数据的基础架构和系统也可以反向工作,提供一些更好的方法来集成和使用该数据。有用的是,InfoSphereBigInsights通过一个简单的RESTAPI支持数据作业的管理和执行。通过Jaql接口,我们可以运行查询,并直接从Hadoop集群中获取信息。本文将重点介绍这些系统如何协同工作,为捕捉数据提供丰富的基础,并提供了
2023-09-22 15:35:07 328KB 从大数据源构建灵活的应用程序
1
淘宝数据库特点: 非常重要:几乎所有淘宝业务都依赖 数量多:以千计的数据库服务器 数据量大:单表几亿~几百亿条记录 访问量大:每天几亿~几百亿次访问
2023-08-29 10:12:48 624KB 大数据 架构
1
能够处理大批量数据的分页,处理百万级别的分页,c#源码,附带数据库数据!
2023-08-29 00:37:13 139KB c# 分页 .NET
1