大数据发展背景 大数据起源及发展趋势 什么是大数据 海量数据从哪里来 数据摩尔定律 2005 年 2015 年 为什么大数据技术会出现 为什么传统数据库不能解决大数据的问题 大数据技术 大数据生命周期 数据采集-》数据清洗整理-》数据存取-》数据挖掘与分析-》数据展示与应用 大数据技术生态 数据采集 数据存储 SQL 引擎 离线计算 流式计算 多维分析 数据挖掘 Sqoop Flume HDFS Hbase PGXZ MongoDB Spark SQL HAWQ Hive Impala MR Spark Storm Spark Streaming Flink Kylin Druid Mahout KNIME 核心技术 分布式存储: 分布式存储是一种数据存储技术,通过网络使用企业中的每台机器上的磁盘空间,并将这些分散的存储资源构成一个虚拟的存储设备,数据 分散的存储在企业的各个角落。 分布式计算: 分布数据计算(Distributed Data Processing,简称 DDP) 使对计算、数据处理等等方面使用需求分散到构成整个系统的各个节点中。分布式 计算是一门计算科学他研究如何把一
2022-06-21 17:06:16
2.83MB
文档资料