spark-submit 进行spark调优的一些疑问

0
我在一个小集群上跑,一个管理节点,四个计算节点,CDH5.7.1 + SPARK 1.60



 spark-submit --name "wordcount_text" --class com.dt.scala.counttest --executor-memory 1G --num-executors 100 --executor-cores 4  --driver-memory 2G --master yarn-cluster --conf spark.default.parallelism=1000 /usr/jar/wordcount.jar /user/root/hh/textdata2.txt /user/root/output



这个是我的参数,我指定executor的数量为100,但是实际跑起来还是2个,烦请老师帮忙解答一下~



还有,通过spark.default.parallelism=1000 ,我输出的STAGE有了1000个task。

请问老师如果我想在第一个stage,也就是map阶段将数量调大,这个需要设置那个参数?



以上,非常感谢!!!!



JAR 包的内容:

object counttest {

  def main(args:Array[String])

  {

    if(args.length <2 )

    {

      println("Usage:WordCount ")

      System.exit(1)

   

    val hdfsIn = args(0)

    val hdfsOut = args(1) 

    val sc = new SparkContext(new SparkConf().setAppName("wordcount"))

    val srcData = sc.textFile(hdfsIn)

    val result = srcData.flatMap(_.split("\\s+")).map((_,1)).reduceByKey(_+_)

    result.saveAsTextFile(hdfsOut)   

  }

}

a77dd72642c254225fc2290984a0d68c.PNG

 
已邀请:

要回复问题请先登录注册