对于聚合的key,在reduce阶段事怎样排序的呢?

0
已邀请:
1

Bob - 同程旅游大数据+BI 架构师 2016-05-12 回答

从map到reduce中间经历copy,sort,merge几个环节。
其中sort阶段是发生在 buffer阶段。
 
从map结果的partition中读取数据到buffer中,缓存的空间大小可以设置。
当超过缓存的一定大小时,就会将数据溢写到磁盘,此时是split,大小根据spill.percent来判断。
当溢写线程启动后,就需要对内存buffer的key做排序,是对序列化的字节做的排序。 

要回复问题请先登录注册