Spark

spark-submit 进行spark调优的一些疑问

0

我在一个小集群上跑，一个管理节点，四个计算节点，CDH5.7.1 + SPARK 1.60

spark-submit --name "wordcount_text" --class com.dt.scala.counttest --executor-memory 1G --num-executors 100 --executor-cores 4 --driver-memory 2G --master yarn-cluster --conf spark.default.parallelism=1000 /usr/jar/wordcount.jar /user/root/hh/textdata2.txt /user/root/output

这个是我的参数，我指定executor的数量为100，但是实际跑起来还是2个，烦请老师帮忙解答一下~

还有，通过spark.default.parallelism=1000 ，我输出的STAGE有了1000个task。

请问老师如果我想在第一个stage，也就是map阶段将数量调大，这个需要设置那个参数？

以上，非常感谢！！！！

JAR 包的内容：

object counttest {

def main(args:Array[String])

{

    if(args.length <2 )

    {

      println("Usage:WordCount ")

      System.exit(1)



    val hdfsIn = args(0)

    val hdfsOut = args(1)

    val sc = new SparkContext(new SparkConf().setAppName("wordcount"))

    val srcData = sc.textFile(hdfsIn)

    val result = srcData.flatMap(_.split("\\s+")).map((_,1)).reduceByKey(_+_)

    result.saveAsTextFile(hdfsOut)

}

}