上传者: 38577378
|
上传时间: 2022-06-19 22:28:20
|
文件大小: 56KB
|
文件类型: PDF
DataFrame是一个组织成命名列的数据集。它在概念上等同于关系数据库中的表或R/Python中的数据框架,但其经过了优化。DataFrames可以从各种各样的源构建,例如:结构化数据文件,Hive中的表,外部数据库或现有RDD。
DataFrame API 可以被Scala,Java,Python和R调用。
在Scala和Java中,DataFrame由Rows的数据集表示。
在Scala API中,DataFrame只是一个类型别名Dataset[Row]。而在Java API中,用户需要Dataset用来表示DataFrame。
在本文档中,我们经常将Scala/Java数据