Spark Atlas连接器
用于跟踪Spark SQL / DataFrame转换并将元数据更改推送到Apache Atlas的连接器。
此连接器支持跟踪:
SQL DDL,例如“创建/删除/更改数据库”,“创建/删除/更改表”。
SQL DML,例如“ CREATE TABLE tbl AS SELECT”,“ INSERT INTO ...”,“ LOAD DATA [LOCAL] INPATH”,“ INSERT OVERWRITE [LOCAL] DIRECTORY”等。
具有输入和输出的DataFrame转换
机器学习管道。
该连接器将与Hive,HDFS等其他系统关联,以跟踪Atlas中数据的生命周期。
如何建造
要使用此连接器,您将需要最新版本的Spark(Spark 2.3+),因为大多数功能仅在Spark 2.3.0+中存在。
要构建此项目,请执行:
mv
1