用r语言做文本挖掘的聚类,发现用k平均值法聚类的效果很差,大部分被分到了一类去。有什么好的聚类算法吗?

0
已邀请:
2

牟瑞 - 大数据 Hadoop 讲师 Hadoop入门课程地址:http://www.hellobi.com/course/39 有架构师,技术总监,CTO的职位请联系我! 2016-04-08 回答

从个人的角度来说,聚类算法太多了!具体用哪一个,最主要的还是要结合你的具体的数据。
1.预测下或者你期望你的聚类会出现什么样的结果。
2.你的数据是不是噪声数据太多,没有进行充分的过滤。
 
你可以试一下DBScan算法

1. 与K-means方法相比,DBSCAN不需要事先知道要形成的簇类的数量。
2. 与K-means方法相比,DBSCAN可以发现任意形状的簇类。
3. 同时,DBSCAN能够识别出噪声点。
4.DBSCAN对于数据库中样本的顺序不敏感,即Pattern的输入顺序对结果的影响不大。但是,对于处于簇类之间边界样本,可能会根据哪个簇类优先被探测到而其归属有所摆动。
 
以上,仅供参考。
 
0

philbert 2016-04-25 回答

顶二楼,顺便补充如下:
1)任何聚类算法都有其适用的数据类型范畴,就你的案例而言选择什么样的算法首先要看你会将文本数据预处理成什么格式和类型的数据,要处理的数据确定了才好选择有针对性的算法。

2)如果希望在K-means上得到比较理想的结果,建议在进入算法之前对数据的噪声作尽量精细的处理,同时注意算法初始点的选择。

要回复问题请先登录注册