Datasets
Dataset是在Spark 1.6新增的一个接口,随着Spark SQL的最优化执行引擎的益处,提供给RDDs一些好处(强类型(strong typing),使用强大的lamada函数的能力)。Dataset可以从JVM对象中构造,然后使用功能转换(map,flatMap,filter等)来操作。
统一的Dataset API能够被Scala和Java使用。Python还没有支持Dataset API.但是由于Python的动态特性,Dataset API带来的许多好处已经可以获取了(例如,你可以通过row.columnName访问行的字段)。完整的python支持将会在今后的发布中增加。