[Friday BI Fly] 请问DBScan算法和最近一些论文中,效果非常好的DensityPeak算法相比,在处理大数据方面有何优劣呢?

0
已邀请:
0

彭远权 - 腾讯 高级数据分析师 2016-08-02 回答

optics.jpg

之前关注到的基于密度聚类算法k-means,dbscan,optics
前两个大家可能都比较熟悉。
这位同学提到的density peak算法, 最近我也做了一些对比。发现这个算法是修正了optics和dbscan算法各自缺点的一个综合算法。
1. dbscan算法的缺点是指定eps和minpts 无法对密度不均匀的数据进行准确聚类。比如上图就是optics算法对dbscan这个缺点的改进
2. optics算法可以识别出簇间密度差异化的数据,但是对于密度还是比较敏感。比如density peak论文中的截图(参见下图)。A,C,B三个图中的群落周边比较稀疏的边缘点不能准确归类。

density_peak.png

聚类算法用一个统一标准来衡量哪个算法最优。只能根据实际数据情况来比较选择哪个算法更合适。
不同的算法,都是针对特定情况而改进的。
 
上面提到的几个基于密度算法,无论群落划分方法、密度界定方法怎样。都有一个通病:时间复杂的很高。上次分享的dbscan算法大数据瓶颈突破思路,在这几个算法上都可以应用。
0

天善小编 - 微信直播问题收集 2016-08-01 回答

彭老师:DensityPeak这个算法目前还没学习过,我可以抽时间学习后对比下再同步。

要回复问题请先登录注册