spark-submit 进行spark调优的一些疑问
0
我在一个小集群上跑,一个管理节点,四个计算节点,CDH5.7.1 + SPARK 1.60
spark-submit --name "wordcount_text" --class com.dt.scala.counttest --executor-memory 1G --num-executors 100 --executor-cores 4 --driver-memory 2G --master yarn-cluster --conf spark.default.parallelism=1000 /usr/jar/wordcount.jar /user/root/hh/textdata2.txt /user/root/output
这个是我的参数,我指定executor的数量为100,但是实际跑起来还是2个,烦请老师帮忙解答一下~
还有,通过spark.default.parallelism=1000 ,我输出的STAGE有了1000个task。
请问老师如果我想在第一个stage,也就是map阶段将数量调大,这个需要设置那个参数?
以上,非常感谢!!!!
JAR 包的内容:
object counttest {
def main(args:Array[String])
{
if(args.length <2 )
{
println("Usage:WordCount ")
System.exit(1)
val hdfsIn = args(0)
val hdfsOut = args(1)
val sc = new SparkContext(new SparkConf().setAppName("wordcount"))
val srcData = sc.textFile(hdfsIn)
val result = srcData.flatMap(_.split("\\s+")).map((_,1)).reduceByKey(_+_)
result.saveAsTextFile(hdfsOut)
}
}
spark-submit --name "wordcount_text" --class com.dt.scala.counttest --executor-memory 1G --num-executors 100 --executor-cores 4 --driver-memory 2G --master yarn-cluster --conf spark.default.parallelism=1000 /usr/jar/wordcount.jar /user/root/hh/textdata2.txt /user/root/output
这个是我的参数,我指定executor的数量为100,但是实际跑起来还是2个,烦请老师帮忙解答一下~
还有,通过spark.default.parallelism=1000 ,我输出的STAGE有了1000个task。
请问老师如果我想在第一个stage,也就是map阶段将数量调大,这个需要设置那个参数?
以上,非常感谢!!!!
JAR 包的内容:
object counttest {
def main(args:Array[String])
{
if(args.length <2 )
{
println("Usage:WordCount ")
System.exit(1)
val hdfsIn = args(0)
val hdfsOut = args(1)
val sc = new SparkContext(new SparkConf().setAppName("wordcount"))
val srcData = sc.textFile(hdfsIn)
val result = srcData.flatMap(_.split("\\s+")).map((_,1)).reduceByKey(_+_)
result.saveAsTextFile(hdfsOut)
}
}
没有找到相关结果
重要提示:提问者不能发表回复,可以通过评论与回答者沟通,沟通后可以通过编辑功能完善问题描述,以便后续其他人能够更容易理解问题.
0 个回复