1、脚本运行环境python3.6
2、脚本忽略LOB字段数据
3、脚本生成以^为分割符的csv格式文件
4、脚本避免转义字符将‘\’替换为‘/’,数据中存在分割符:^转换为#
5、特殊字符处理:删除:'\u0000','"',oracle数据回车符:'\r','\n'
6、支持按分区导入
7、支持内存处理数据导入greenplum,导入失败生成csv格式文件,方便排错
8、支持生成csv格式文件导入greenplum。
9、传递不同配置文件,多次执行达到并行处理(注意内存溢出)
例: 执行脚本 生成日志目录 配置文件
python3 Main_Mem.py ProcessLog1 config1.ini &
python3 Main_Mem.py ProcessLog2 config2.ini &
python3 Main_Mem.py ProcessLog3 config3.ini &
python3 Main_Mem.py ProcessLog4 config4.ini &
10、采用python 中的copy_from方法实现导入greenplum
11、各目录用途:
conf :存放配置文件
etl_dat: 存放导出数据
log :存放输出日志
py_tool 存放编写工具脚本:
DBconn: 数据库连接池配置及查询返回方法
DumpCsv:导出csv文件方法
Log:日志输出方法
DataBase:判断表是否存在、表或分区表是否有数据、是否为分区表、数据导出、表分区遍历、指定分区表导出等方法
py_main:主程序目录:
Main_Mem.py:主程序目录:
运行:python3 Main_Mem.py ProcessLog1 config.ini
12、主程序需要修改目录参数:
if __name__ == '__main__':
#引用编写的包
sys.path.append('/home/oracle/PyETL2.0/py_tool')
import Log,DataBase,DumpCsv
#输出日志路径:
path = '/home/oracle/PyETL2.0/log/'+sys.argv[1]
isExists = os.path.exists(path)
if not isExists:
os.makedirs(path)
#shutil.move(path,path+)
logger = Log.log(path)
#读取配置文件
config = Confile('/home/oracle/PyETL2.0/conf/', sys.argv[2])
13、后期还会更新,欢迎提供宝贵意见。
1