Spark围绕着一个弹性分布式数据集(RDD)的概念,这个RDD是一个能够容错的元素集合,这些集合能够被并行操作。
有两各方式创建RDDs:在你的驱动程序中并行化一个已存在的集合,或者引用一个外部存储系统的数据集,例如共享文件系统,HDFS,HBase,或任何提供Hadoop输入格式的数据源。