数仓规划是数仓建设的蓝图,涵盖从需求分析开始到最终的数仓评估验收整个环境;数仓规划之所以重要,是因为它是描述了数据流动的概念性框架,为元数据管理奠定了基础,对数据加工过程的理解、数仓建设的交流分享、数据的使用和问题排查、数仓健康度的评估都提供了极大的帮助。需要强调的是本节是从宏观上描述数仓的框架,具体到数据模型的细节对比、存储选型和管理、接入数据源管理等数仓建设的周边在本节不涉及。通过本节的阅读,你将了解到以下知识:从业务矩阵的设计(宏观、微观)、横向的分层、纵向的分线到主题划分等角度解构数仓
1
AWS V1.0上的数据仓库 背景 一家名为Sparkify的初创公司希望分析他们在新音乐流应用程序上收集的有关歌曲和用户活动的数据。 分析团队对了解用户正在收听的歌曲特别感兴趣。 他们决定在AWS云上实施数据仓库。 架构图 数据驻留在S3中。 ETL管道从S3提取数据并将其分阶段转换为Redshift,将其转换并将其加载到针对歌曲播放分析的查询而优化的星型模式中。 这包括下表。 舞台桌 StagEvents-使用COPY Clouse直接从日志数据文件夹中加载数据 艺术家,身份验证,名字,性别,itemInSession,姓氏,长度,级别, 位置,方法,页面,注册,sessionId,歌曲,统计信息,ts,userAgent,userId StagSongs-使用COPY clouse直接从歌曲数据文件夹中加载数据songplay_id,start_time,user_id,级别,
2021-12-08 15:11:20 6KB Python
1
人工智能概述.zip
2021-12-08 09:10:08 3.49MB 数据仓库
人工智能知识表示方法.zip
2021-12-08 09:10:07 460KB 数据仓库
Oracle 数据仓库解决方案介绍,很详细的一份说明文档。希望大家可以仔细查看,必定有好的效果。谢谢。
2021-12-07 22:12:16 3.43MB oracle 数据仓库 方案
1
面向主题(Subject Oriented):数据仓库通常围绕一些主题,如“产品”、“销售 商”、“消费者”等来进行组织。数据仓库关注的是决策者的数据建模与分析,而不针对日常操作和事务的处理。因此,数据仓库提供了特定主题的简明视图,排除了对于决策无用的数据。 集成(Integrated):数据仓库通常是结合多个异种数据源构成的,异种数据源可能包括关系数据库、面向对象数据库、文本数据。库、Web数据库、一般文件等。
2021-12-07 21:34:49 1.79MB 数据仓库
1
第1章 决策支持系统的发展 1 1.1 演化 1 1.2 直接存取存储设备的产生 2 1.3 个人计算机/第四代编程语言技术 3 1.4 进入抽取程序 3 1.5 蜘蛛网 4 1.6 自然演化体系结构的问题 5 1.6.1 数据缺乏可信性 5 1.6.2 生产率问题 8 1.6.3 从数据到信息 10 1.6.4 方法的变迁 11 1.7 体系结构设计环境 12 1.7.1 体系结构设计环境的层次 13 1.7.2 集成 14 1.8 用户是谁 15 1.9 开发生命周期 15 1.10 硬件利用模式 16 1.11 建立重建工程的舞台 16 1.12 监控数据仓库环境 17 1.13 小结 19 第2章 数据仓库环境 20 2.1 数据仓库的结构 22 2.2 面向主题 23 2.3 第1天到第n天的现象 26 2.4 粒度 28 2.4.1 粒度的一个例子 29 2.4.2 粒度的双重级别 31 2.5 分割问题 34 2.6 样本数据库 34 2.7 数据分割 35 2.8 数据仓库中的数据组织 37 2.9 数据仓库—标准手册 41 2.10 审计和数据仓库 41 2.11 成本合理性 41 2.12 清理仓库数据 42 2.13 报表和体系结构设计环境 42 2.14 机遇性的操作型窗口 43 2.15 小结 44 第3章 设计数据仓库 45 3.1 从操作型数据开始 45 3.2 数据/过程模型和体系结构设计环境 49 3.3 数据仓库和数据模型 50 3.3.1 数据模型 52 3.3.2 中间层数据模型 54 3.3.3 物理数据模型 58 3.4 数据模型和反复开发 59 3.5 规范化/反规范化 60 3.6 数据仓库中的快照 65 3.7 元数据 66 3.8 数据仓库中的管理参照表 66 3.9 数据周期 67 3.10 转换和集成的复杂性 70 3.11 触发数据仓库记录 71 3.11.1 事件 72 3.11.2 快照的构成 72 3.11.3 一些例子 72 3.12 简要记录 73 3.13 管理大量数据 74 3.14 创建多个简要记录 75 3.15 从数据仓库环境到操作型环境 75 3.16 正常处理 75 3.17 数据仓库数据的直接访问 76 3.18 数据仓库数据的间接访问 76 3.18.1 航空公司的佣金计算系统 76 3.18.2 零售个性化系统 78 3.18.3 信用审核 80 3.19 数据仓库数据的间接利用 82 3.20 星型连接 83 3.21 小结 86 第4章 数据仓库中的粒度 87 4.1 粗略估算 87 4.2 粒度划分过程的输入 88 4.3 双重或单一的粒度? 88 4.4 确定粒度的级别 89 4.5 一些反馈循环技巧 90 4.6 粒度的级别—以银行环境为例 90 4.7 小结 95 第5章 数据仓库和技术 96 5.1 管理大量数据 96 5.2 管理多介质 97 5.3 索引/监视数据 97 5.4 多种技术的接口 97 5.5 程序员/设计者对数据存放位置的控制 98 5.6 数据的并行存储/管理 99 5.7 元数据管理 99 5.8 语言接口 99 5.9 数据的高效装入 99 5.10 高效索引的利用 100 5.11 数据压缩 101 5.12 复合键码 101 5.13 变长数据 101 5.14 加锁管理 102 5.15 单独索引处理 102 5.16 快速恢复 102 5.17 其他的技术特征 102 5.18 DBMS类型和数据仓库 102 5.19 改变DBMS技术 104 5.20 多维DBMS和数据仓库 104 5.21 双重粒度级 109 5.22 数据仓库环境中的元数据 109 5.23 上下文和内容 111 5.24 上下文信息的三种类型 111 5.25 捕获和管理上下文信息 113 5.26 刷新数据仓库 113 5.27 小结 114 第6章 分布式数据仓库 116 6.1 引言 116 6.2 局部数据仓库 118 6.3 全局数据仓库 119 6.4 互斥数据 121 6.5 冗余 123 6.6 全局数据存取 124 6.7 分布式环境下其他考虑因素 126 6.8
2021-12-07 17:22:39 6.7MB 数据仓库、软件设计、系统设计
1
1. 概述 2. 数据仓库命名规范 2.1. 命名规范 2.1.1. 表属性规范 2.1.2. 索引 2.1.3. 视图 2.1.4. 物化视图 2.1.5. 存储过程 2.1.6. 触发器 2.1.7. 函数 2.1.8. 数据包 2.1.9. 序列 2.1.10. 普通变量 2.1.11. 游标变量 2.1.12. 记录型变量 2.1.13. 表类型变量 2.1.14. 数据库链接 2.2. 命名 2.2.1. 语言 2.2.2. 大小写 2.2.3. 单词分隔 2.2.4. 保留字 2.2.5. 命名长度 2.2.6. 字段名称 2.3. 数据类型 2.3.1. 字符型 2.3.2. 数字型 2.3.3. 日期和时间 2.3.4. 大字段 2.3.5. 唯一键
2021-12-07 17:13:06 42KB 数据仓库
1
AdventureWorks2016,2017示例数据库,AdventureWorksDW2016,2017数据仓库(bak文件)
2021-12-07 10:05:00 131.06MB AdventureWor 示例数据库
1
Export 数据的导出(支持DB2、MySQL、Oracle、Teradata数据库的数据导出)、合并(支持将多个小数据文件合并成一个大的数据文件)、传输(支持FTP、SFTP数据传输)程序,适用于向指定FTP服务器供数的情况,常见于多个源系统以数据文件的形式向数据仓库集中供数。该程序目前已在某农村信用社数据仓库项目中投入使用。
2021-12-06 14:45:32 7.65MB Java
1