如何针对新到来的数据聚类进行优化?

0
现在已经有m个已经聚好类的类簇,假如经过1天后,又来了n条数据,再进行增量聚类的时候,如何优化使得时间复杂度小于n*m,也就是不用把每条数据和每个类簇中心都比较一遍。现在的两个想法,一个是mini batch kmeans,相当于先对这n条数据聚类,再把类簇中心和m比较,另一个就是kd树,但当维度太高似乎也不合适,而且kd树似乎不适合余弦相似度的度量方式,更适合欧式距离。不知道还有什么优化方式,应该从哪些思路着手?
已邀请:
4

philbert 2016-04-29 回答

个人的一点建议供楼主参考:

首先理解下楼主的描述,楼主希望将新增的N条数据归入已经聚好的M个类中,这里面的关键前提是已有的类信息不会发生变化,只是按已有的类信息对新增数据进行划分。

建议楼主考虑下分类算法,利用已有的几个类和已经确定类标签的数据,训练出分类模型,然后使用训练好的分类模型对新增数据进行划分,这个过程中训练分类模型的过程算法复杂度会比较高,但只是在训练分类模型时使用,一旦分类模型确定,后续使用分类模型对新增数据进行划分的过程是很迅速的,算法复杂度会很低,至于使用什么样的分类算法来完成上述过程,需要根据你要处理数据的具体情况来确定,离散型数据和连续型数据的处理算法选择是有比较明显的区别的。

以上,供参考。

要回复问题请先登录注册