数据挖掘

如何针对新到来的数据聚类进行优化？

0

现在已经有m个已经聚好类的类簇，假如经过1天后，又来了n条数据，再进行增量聚类的时候，如何优化使得时间复杂度小于n*m，也就是不用把每条数据和每个类簇中心都比较一遍。现在的两个想法，一个是mini batch kmeans，相当于先对这n条数据聚类，再把类簇中心和m比较，另一个就是kd树，但当维度太高似乎也不合适，而且kd树似乎不适合余弦相似度的度量方式，更适合欧式距离。不知道还有什么优化方式，应该从哪些思路着手？

重要提示：提问者不能发表回复，可以通过评论与回答者沟通，沟通后可以通过编辑功能完善问题描述，以便后续其他人能够更容易理解问题.

课程推荐：实战秘技，经典案例，一门课程锤炼数据分析师八大能力！

1 个回复

4

philbert 2016-04-29 回答

个人的一点建议供楼主参考：

首先理解下楼主的描述，楼主希望将新增的N条数据归入已经聚好的M个类中，这里面的关键前提是已有的类信息不会发生变化，只是按已有的类信息对新增数据进行划分。

建议楼主考虑下分类算法，利用已有的几个类和已经确定类标签的数据，训练出分类模型，然后使用训练好的分类模型对新增数据进行划分，这个过程中训练分类模型的过程算法复杂度会比较高，但只是在训练分类模型时使用，一旦分类模型确定，后续使用分类模型对新增数据进行划分的过程是很迅速的，算法复杂度会很低，至于使用什么样的分类算法来完成上述过程，需要根据你要处理数据的具体情况来确定，离散型数据和连续型数据的处理算法选择是有比较明显的区别的。

以上，供参考。

要回复问题请先登录或注册

如何针对新到来的数据聚类进行优化？

1 个回复

发起人

相关问题

问题状态

如何针对新到来的数据聚类进行优化？

与内容相关的链接

1 个回复

发起人

相关问题

问题状态