请教一个问题hive里怎样改写select count(distinct **),避免出现distinct!!!! 考虑过采用 ROW_NUMBER() OVER(PARTITION BY ** ORDER BY * DESC) RN 和group by 都不能很好解决

0

888.png

 
已邀请:
0

MarsJ - 大数据玩家~DS 2016-08-15 回答

你考虑的备选方法我也用过,用来去重,不知道你要的效果是什么?可以更具体一点哦。
如果是要求速度更快一些,建议从Hive切换出去,用Spark SQL或其他的组件做

要回复问题请先登录注册