上传者: 42139302
|
上传时间: 2021-12-28 19:49:16
|
文件大小: 14KB
|
文件类型: -
Spark 与 Avro 和 Parquet
随附一个简单的 Spark 应用程序,演示如何以 Parquet 和 Avro 格式读取和写入数据。
Avro 指的是二进制格式和内存中的 Java 对象表示。 Parquet 仅指一种二进制格式,它支持可插入的内存表示。 Parquet 的内存中表示的选项之一是 Avro,这是我们在这里使用并普遍推荐的选项。
Avro 实际上有两个内存表示。 “特定”记录依赖于生成的代码。 “通用”记录本质上将对象表示为键值对。 我们在这里使用特定的表示,因为一旦设置了代码生成,它会更高效且更容易编程。
编译和打包:
mvn package
这将从 Avro 模式生成 Java 类并构建项目。 Avro 模式是一个简单的“用户”对象,定义在 src/main/resources/user.avsc 中。
要测试写入 Avro 文件:
spa