弹性分布式数据集

Spark围绕着一个弹性分布式数据集（RDD）的概念，这个RDD是一个能够容错的元素集合，这些集合能够被并行操作。

有两各方式创建RDDs：在你的驱动程序中并行化一个已存在的集合，或者引用一个外部存储系统的数据集，例如共享文件系统，HDFS，HBase，或任何提供Hadoop输入格式的数据源。