1、脚本运行环境python3.6 2、脚本忽略LOB字段数据 3、脚本生成以^为分割符的csv格式文件 4、脚本避免转义字符将‘\’替换为‘/’,数据中存在分割符:^转换为# 5、特殊字符处理:删除:'\u0000','"',oracle数据回车符:'\r','\n' 6、支持按分区导入 7、支持内存处理数据导入greenplum,导入失败生成csv格式文件,方便排错 8、支持生成csv格式文件导入greenplum。 9、传递不同配置文件,多次执行达到并行处理(注意内存溢出) 例: 执行脚本 生成日志目录 配置文件 python3 Main_Mem.py ProcessLog1 config1.ini & python3 Main_Mem.py ProcessLog2 config2.ini & python3 Main_Mem.py ProcessLog3 config3.ini & python3 Main_Mem.py ProcessLog4 config4.ini & 10、采用python 中的copy_from方法实现导入greenplum 11、各目录用途: conf :存放配置文件 etl_dat: 存放导出数据 log :存放输出日志 py_tool 存放编写工具脚本: DBconn: 数据库连接池配置及查询返回方法 DumpCsv:导出csv文件方法 Log:日志输出方法 DataBase:判断表是否存在、表或分区表是否有数据、是否为分区表、数据导出、表分区遍历、指定分区表导出等方法 py_main:主程序目录: Main_Mem.py:主程序目录: 运行:python3 Main_Mem.py ProcessLog1 config.ini 12、主程序需要修改目录参数: if __name__ == '__main__': #引用编写的包 sys.path.append('/home/oracle/PyETL2.0/py_tool') import Log,DataBase,DumpCsv #输出日志路径: path = '/home/oracle/PyETL2.0/log/'+sys.argv[1] isExists = os.path.exists(path) if not isExists: os.makedirs(path) #shutil.move(path,path+) logger = Log.log(path) #读取配置文件 config = Confile('/home/oracle/PyETL2.0/conf/', sys.argv[2]) 13、后期还会更新,欢迎提供宝贵意见。
1
14000字详细阐述 Tapdata 实时数据服务平台的特性和技术细节。包括:基于数据同步的虚拟化、流处理引擎 + 可视化数据开发平台、低代码API发布能力、异构数据源统一访问框架等,适合技术开发者、大数据工程师、数据库技术同学等人群阅读。目前,Tapdata 已免费开放异构数据库实时同步工具 Tapdata Cloud ,支持主流数据库间的双向实时同步、迁移。
2021-08-20 01:31:34 5.24MB 数据同步 数据迁移 技术白皮书 数据库
1
安装 logstash-input-mongodb 插件 (1) 登录github 地址https://github.com/phutchins/logstash-input-mongodb 下载 (2) 解压到 logstash bin文件夹同级目录 (3) 修改logstash目录下的 Gemfile 文件 添加配置 gem "logstash-input-mongodb", :path => "./logstash-input-mongodb-master" (4) logstash bin目录下执行 logstash-plugin install --no-verify 命令安装 (5) logstash bin目录下执行 logstash-plugin list 查看安装插件 (6) 第4部安装异常 可能是由于镜像地址不可访问造成的 替换 Gemfile文件中source行链接为 https://gems.ruby-china.com/ 安装
2021-08-10 12:31:36 13KB 安装插件同步数据
1
适合win系统下远程文件,目录,等自动备份到本地,两个相同的脚本运行,可以实现,远程备份到本地,本地二次备份到远程等多点冷备业务。 使用步骤: 1,打开脚本文件配置好:xcopydb小节中需要备份的目录或文件,如果要整体备份目录下所有文档,在:xcopydb小节中使用*进行通配符匹配,然后xcopy参数增加使用 /e /s 2,脚本首先启动的时候会对远程文件进行是否存在判断,所以使用脚本前需要先对远程资源挂载成本地盘符;也可在:errdb小节中可以对远程资源进行二次判断,由于各种环境不同,根据需要可以增加 net -add 远程路径 盘符 命令对远程\\ip\资源名,以实现二次判断不存在可以自动将访问源保存为本地盘符 3、如果新增或更换了本地盘符号,记得修改主程序:xcopydb小节中需要备份的数据路径 4、如何实现daemon?daemon是来做脚本监控的,如果使用win的计划任务可以不特别写监控脚本。如要自己实现,最好将脚本配置成后台服务组件形式,如果时单一监控,只有监控net链接是否存在,本身进程是否存在;
2021-08-07 12:00:49 1KB windowsserver 远程备份同步数据
1
一个学习数据库很好的实例,从sqlserver同步数据到Mysql数据库。vs2010
2021-08-02 21:25:48 30.17MB 数据库 图片
1
JAVA+UTF8+JDK8 access(支持带密码)同步到mysql数据库; 右击导出时候直接选Runnable jar file; 导出之后复制config文件夹与jar包放到同一个目录下; 我是导出为可执行jar之后,做了个系统任务,定时的跑; 此项目支持jdk8并且读取access不限制1000条; tips: 导出时候config文件夹不会被导出,这个文件夹里的file.properties是配置连接信息及用户名密码的; 如果file.properties里的中文显示为code,你需要右击此文件,点击Properties—Text file encoding设置为utf8。
2021-07-29 13:57:17 6.36MB 数据同步 不限1000 支持JDK8
1
在SQL中 如何实现不同数据库的两张表的同步 你可以分三个来写,分别用来监视insert\delete\update三个(这样写容易完成),我下面写一个,你其它有可以参照下面这个来写 --插入行的情况 CREATE TRIGGER [填入触发器名] ON [dbo].[表名] FOR INSERT AS insert [另外一个数据库名].[dbo].[表名] select * from inserted
2021-07-23 17:46:27 29KB 同步数据
1
从源库中同步若干张数据表至目标库或目标文件中 暂支持以下两种(即表2表 表2文件)可做配置 1)从源库表中同步数据至目标库表中 (目标表名可配置) 2)从源库表中同步数据至目标文件中 (目标文件名可配置)
1
是我的“Kettle数据库同步源码”对应的详细设计文档; 包含流程图 + 数据表结构设计!
1
基于FPGA和DSP的多路同步数据采集系统设计.pdf
2021-07-13 15:12:33 209KB FPGA 硬件技术 硬件开发 参考文献