DataFrames
DataFrame是一个由列组织的分布式的数据集合。它的概念与关系型数据庫的表等价,或在与R/Python里的data frame等价,但是有着更丰富的优化。DataFrame能够从一个从更广泛的源数组中构建,例如:结构化的数据文件,Hive中的tables,外部数据庫,或者已经存在的RDDs。DataFrame API支持Scala, Java, Python和R。
DataFrame是一个由列组织的分布式的数据集合。它的概念与关系型数据庫的表等价,或在与R/Python里的data frame等价,但是有着更丰富的优化。DataFrame能够从一个从更广泛的源数组中构建,例如:结构化的数据文件,Hive中的tables,外部数据庫,或者已经存在的RDDs。DataFrame API支持Scala, Java, Python和R。