ETL项目 项目的ETL流程最初是使用Kaggle的两个数据集进行的。 一个数据集包含有关印度食品配方的信息,另一个数据集包含有关常见食品和产品的营养价值的信息。 数据集的两个链接都可以在这里找到: ETL的EXTRACT部分首先使用简单的pd.read语句将这些数据集中的CSV加载到我们的Jupyter Notebook中。 读完CSV文件后,ETL的TRANSFORMATION(清洗)部分要求我们从包含成分类型的两个数据框中拆分或拆分列。 我们使用了split函数将每种成分分解为单独的列。 我们还需要从每种成分之间的原始数据框中删除逗号。 最终结果在两个干净的数据框中显示了不同成分的多列。 一旦两个数据帧都干净并包含将其加载到我们的成分数据库中所需的所有数据,就初始化了ETL的LOAD部分。 在使用pgAdmin之前,我们必须在Jupyter Notebook和PostGres
2022-07-12 14:36:36 1.26MB JupyterNotebook
1
Kettle源码(Web版),适用于各种ETL任务
2022-07-06 23:27:00 70.95MB etl javascript 数据仓库
1
适合初级ETL工程师面试用
2022-07-05 09:06:09 36KB etl
1、Linux环境安装jdk 2、上传kettle安装包 3、配置jdk环境变量 4、kettle之kjb、ktr,可执行shell脚本
2022-07-03 19:05:20 411KB linux etl shell kettle
1、新旧redis集群迁移 2、支持redis集群的存量和增量数据迁移 3、支持redis集群数据的离线迁移
2022-06-30 09:05:46 363KB Redis ETL 数据迁移
ETL中三个字母分别代表的是Extract、Transform、Load,即抽取、转换、加载。(1)数据抽取:从源数据源系统抽取目的数据源系统需要的数据;(2)数据转换:将从源数据源获取的数据按照业务需求,转换成目的数据源要求的形式,并对错误、不一致的数据进行清洗和加工。(3)数据加载:将转换后的数据装载到目的数据源。
2022-06-29 19:33:43 4.73MB ETL
1
ibm datastage11.5全新安装全部过程
2022-06-21 21:03:21 8.67MB etl工具
1
实时数仓实践
2022-06-20 18:08:01 4.24MB 实时数仓
带书签,高清PDF。提供多个业务行业的案例,对维度建模提完整论述。
2022-06-08 09:47:30 113.84MB 数据仓库 维度建模 大数据 ETL
1