概述
Spark SQL是一个对于结构化的数据处理的Spark模块。不像基本的Spark RDD API,由Spark SQL提供的接口,有更多关于数据的结构和可以执行的数据计算的信息。在内部,Spark SQL使用额外的信息来执行額外的最优化。有许多方式可以与Spark SQL交互,包括SQL,DataFrames API和Dataset API。当在计算结果时会使用相同的执行引擎,它与使用哪个API或语言来表达计算是独立的。这种统一意味着,开发人员可以更容易地在不同的APIs之间切换,因为这提供了一个最自然的方式来表达一个转换。
这一頁所有的例子使用样本数据(包含在Spark的发布中),这些例子可以运行在spark-shell
, pyspark
脚本和sparkR
脚本上。