java
sql笔试题示例
Hive
UDF
项目
介绍
该项目只是一个示例,包含多个
(UDF),用于
Apache
Spark。
它旨在演示如何在
Scala
或
Java
中构建
Hive
UDF
并在
.
为什么要使用
Hive
UDF?
Hive
UDF
的一个特别好的用途是与
Python
和
DataFrames
一起使用。
用
Python
编写的原生
Spark
UDF
很慢,因为它们必须在
Python
进程中执行,而不是基于
JVM
的
Spark
Executor。
要让
Spark
Executor
运行
Python
UDF,它必须:
将数据从分区发送到与
Executor
关联的
Python
进程,以及
等待
Python
进程反序列化数据,在其上运行
UDF,重新序列化数据,然后将其发回。
相比之下,一个
Hive
UDF,无论是用
Scala
还是
Java
编写的,都可以在
Executor
JVM
中执行,即使
DataFrame
逻辑是在
Python
中。
实际上只有一个缺点:必须通过
SQL
调用
Hive
UDF。
您不能将其作为来自
D
2022-03-30 19:58:46
1.01MB
系统开源
1