如何针对新到来的数据聚类进行优化?
0
现在已经有m个已经聚好类的类簇,假如经过1天后,又来了n条数据,再进行增量聚类的时候,如何优化使得时间复杂度小于n*m,也就是不用把每条数据和每个类簇中心都比较一遍。现在的两个想法,一个是mini batch kmeans,相当于先对这n条数据聚类,再把类簇中心和m比较,另一个就是kd树,但当维度太高似乎也不合适,而且kd树似乎不适合余弦相似度的度量方式,更适合欧式距离。不知道还有什么优化方式,应该从哪些思路着手?
没有找到相关结果
重要提示:提问者不能发表回复,可以通过评论与回答者沟通,沟通后可以通过编辑功能完善问题描述,以便后续其他人能够更容易理解问题.
1 个回复
philbert 2016-04-29 回答
赞同来自: genesys 、梁勇 、C级英雄 、夏尔康
首先理解下楼主的描述,楼主希望将新增的N条数据归入已经聚好的M个类中,这里面的关键前提是已有的类信息不会发生变化,只是按已有的类信息对新增数据进行划分。
建议楼主考虑下分类算法,利用已有的几个类和已经确定类标签的数据,训练出分类模型,然后使用训练好的分类模型对新增数据进行划分,这个过程中训练分类模型的过程算法复杂度会比较高,但只是在训练分类模型时使用,一旦分类模型确定,后续使用分类模型对新增数据进行划分的过程是很迅速的,算法复杂度会很低,至于使用什么样的分类算法来完成上述过程,需要根据你要处理数据的具体情况来确定,离散型数据和连续型数据的处理算法选择是有比较明显的区别的。
以上,供参考。