概述

Spark SQL是一个对于结构化的数据处理的Spark模块。不像基本的Spark RDD API,由Spark SQL提供的接口，有更多关于数据的结构和可以执行的数据计算的信息。在内部，Spark SQL使用额外的信息来执行額外的最优化。有许多方式可以与Spark SQL交互，包括SQL，DataFrames API和Dataset API。当在计算结果时会使用相同的执行引擎，它与使用哪个API或语言来表达计算是独立的。这种统一意味着，开发人员可以更容易地在不同的APIs之间切换，因为这提供了一个最自然的方式来表达一个转换。

这一頁所有的例子使用样本数据（包含在Spark的发布中），这些例子可以运行在spark-shell, pyspark脚本和sparkR脚本上。