连接到Spark

Spark2.0.0的构建和发布后,默认使用Scala2.11工作,(Spark也可以采用其他Scala版本来构建)要使用Scala来写应用程序,你将需要使用一个兼容的Scala版本(例如2.11.X)。

注意:Spark可以使用多种语言工作,这里采用Scala,需要查看Java或Python的用法,请查看官方文档

要写一个Spark应用,你需要增加一个Spark的Maven依赖。Spark可以在Maven中央庫中获取:

groupId = org.apache.spark
artifactId = spark-core_2.11
version = 2.0.0

另外,如果你想访问一个HDFS集群,你需要增加一个对于你HDFS相应版本的hadoop-client依赖。

groupId = org.apache.hadoop
artifactId = hadoop-client
version = <your-hdfs-version>

最后,你需要导入一些Spark类到你的程序中。增加以下行:

import org.apache.spark.SparkContext
import org.apache.spark.SparkConf

(在Spark1.3.0之前,你需要显示导入org.apache.spark.SparkContext._ 来启用一些基本的隐式转换。)

results matching ""

    No results matching ""