ETL项目
项目的ETL流程最初是使用Kaggle的两个数据集进行的。 一个数据集包含有关印度食品配方的信息,另一个数据集包含有关常见食品和产品的营养价值的信息。
数据集的两个链接都可以在这里找到:
ETL的EXTRACT部分首先使用简单的pd.read语句将这些数据集中的CSV加载到我们的Jupyter Notebook中。
读完CSV文件后,ETL的TRANSFORMATION(清洗)部分要求我们从包含成分类型的两个数据框中拆分或拆分列。 我们使用了split函数将每种成分分解为单独的列。 我们还需要从每种成分之间的原始数据框中删除逗号。 最终结果在两个干净的数据框中显示了不同成分的多列。
一旦两个数据帧都干净并包含将其加载到我们的成分数据库中所需的所有数据,就初始化了ETL的LOAD部分。 在使用pgAdmin之前,我们必须在Jupyter Notebook和PostGres
1