1、脚本运行环境python3.6 2、脚本忽略LOB字段数据 3、脚本生成以^为分割符的csv格式文件 4、脚本避免转义字符将‘\’替换为‘/’,数据中存在分割符:^转换为# 5、特殊字符处理:删除:'\u0000','"',oracle数据回车符:'\r','\n' 6、支持按分区导入 7、支持内存处理数据导入greenplum,导入失败生成csv格式文件,方便排错 8、支持生成csv格式文件导入greenplum。 9、传递不同配置文件,多次执行达到并行处理(注意内存溢出) 例: 执行脚本 生成日志目录 配置文件 python3 Main_Mem.py ProcessLog1 config1.ini & python3 Main_Mem.py ProcessLog2 config2.ini & python3 Main_Mem.py ProcessLog3 config3.ini & python3 Main_Mem.py ProcessLog4 config4.ini & 10、采用python 中的copy_from方法实现导入greenplum 11、各目录用途: conf :存放配置文件 etl_dat: 存放导出数据 log :存放输出日志 py_tool 存放编写工具脚本: DBconn: 数据库连接池配置及查询返回方法 DumpCsv:导出csv文件方法 Log:日志输出方法 DataBase:判断表是否存在、表或分区表是否有数据、是否为分区表、数据导出、表分区遍历、指定分区表导出等方法 py_main:主程序目录: Main_Mem.py:主程序目录: 运行:python3 Main_Mem.py ProcessLog1 config.ini 12、主程序需要修改目录参数: if __name__ == '__main__': #引用编写的包 sys.path.append('/home/oracle/PyETL2.0/py_tool') import Log,DataBase,DumpCsv #输出日志路径: path = '/home/oracle/PyETL2.0/log/'+sys.argv[1] isExists = os.path.exists(path) if not isExists: os.makedirs(path) #shutil.move(path,path+) logger = Log.log(path) #读取配置文件 config = Confile('/home/oracle/PyETL2.0/conf/', sys.argv[2]) 13、后期还会更新,欢迎提供宝贵意见。
1
hive数据仓库的建立
2021-08-31 18:12:23 179.51MB 数据仓库 hive 实验
一本介始数据仓库与数据挖掘技术的电子书,欢迎大家下载共享。
2021-08-31 14:39:30 8.14MB 数据库
1
基于数据仓库的电力系统负荷预测研究.pdf
数据仓库面试常见问题集锦(带答案).docx
2021-08-28 09:02:57 28KB 数据仓库面
2021 Building the Unified Data Warehouse and Data Lake.pdf
2021-08-27 14:02:22 580KB 湖仓一体 数据仓库 数据湖
1
第1章 决策支持系统的发展 1.1 演化 1.2 自然演化式体系结构的问题 1.3 开发生命周期 1.4 硬件利用模式 1.5 为重建工程创造条件 1.6 监控数据仓库环境 1.7 小结 第2章 数据仓库环境 2.1 数据仓库的结构 2.2 面向主题 2.3 第1天到第n天的现象 2.4 粒度 2.5 探查与数据挖掘 2.6 活样本数据库 2.7 分区设计方法 2.8 数据仓库中的数据组织 2.9 审计与数据仓库 2.10 数据的同构/异构 2.11 数据仓库中的数据清理 2.12 报表与体系结构化环境 2.13 各种环境中的操作型窗口 2.14 数据仓库中的错误数据 2.15 小结 第3章 设计数据仓库 3.1 从操作型数据开始 3.2 数据/过程模型与体系结构化环境 3.3 数据仓库与数据模型 3.4 数据模型与迭代式开发 3.5 规范化/反向规范化 3.6 元数据 3.7 数据周期——时间间隔 3.8 转换和集成的复杂性 3.9 数据仓库记录的触发 3.10 概要记录 3.11 管理大量数据 3.12 创建多个概要记录 3.13 从数据仓库环境到操作型环境 3.14 数据仓库数据的直拉操作型访问 3.15 数据仓库数据的间接访问 3.16 数据仓库数据的间接使用 3.17 星形连接 3.18 支持操作型数据存储 3.19 需求和Zachman框架 3.20 小结 第4章 数据仓库中的粒度 4.1 粗略估算 4.2 规划过程的输入 4.3 溢出存储器中的数据 4.4 确定粒度级别 4.5 一些反馈循环技巧 4.6 确定粒度级别的几个例子 4.7 填充数据集市 4.8 小结 第5章 数据仓库和技术 5.1 管理大量数据 5.2 管理多种介质 5.3 索引和监控数据 5.4 多种技术的接口 5.5 程序员/设计者对数据存放位置的控制 5.6 数据的并行存储和管理 5.7 语言接口 5.8 数据的有效装裁 5.9 有效利用索引 5.10 数据压缩 5.11 复合主键 5.12 变长数据 5.13 加锁管理 5.14 只涉及索引的处理 5.15 快速恢复 5.16 其他的技术特征 5.17 DBMS类型和数据仓库 5.18 改变DBMS技术 5.19 多维DBMS和数据仓库 5.20 在多种存储介质上构建数据仓库 5.21 数据仓库环境中元数据的角色 5.22 上下文和内容 5.23 刷新数据仓库 5.24 测试问题 5.25 小结 第6章 分布式数据仓库 第7章 主管信息系统和数据仓库 第8章 外部数据与数据仓库 第9章 迁移到体系结构化环境 第10章 数据仓库和Web 第11章 非结构化数据和数据仓库 第12章 大型数据仓库 第13章 关系模型和多维模型数据库设计基础 第14章 数据仓库高级话题 第15章 数据仓库的成本论证和投资回报 第16章 数据仓库和ODS 第17章 企业信息依从准则和数据仓库 第18章 最终用户社区 第19章 数据仓库设计的复查要目
2021-08-27 09:30:10 7.65MB 数据挖掘 数据分析 数据仓库
1
数据仓库建模与ETL的实践技巧.ppt
2021-08-25 16:03:20 4.15MB 数据仓库建模
本资源是交通大学教授上课的ppt讲稿,并附带实例,看起来会比看书容易很多,希望对大家有所帮助。作为参考还是很多错的。
2021-08-23 14:21:44 14.23MB 数据仓库 大数据 数据挖掘 架构
1
数据仓库、数据挖掘教材:数据挖掘与知识发现.pdf
1