预测变量之间存在部分属性存在线性相关会带来一些什么问题

0
就是说100个属性中 存在那么20个属性是存在线性关系的  那么这种关系(或者叫做模式)在没有发现之前按照正常的做饭去拟合、聚类或者其他目标时  会给最终结果带来一些什么影响呢(相比较于初期一眼就看出来这20个属性是存在线性关系的这种情况来进行比较)
已邀请:
2

brucelu - 大数据、数据仓库、数据挖掘均有涉猎 2015-11-27 回答

多个自变量线性相关,多重共线性啊,结果应该就这几个:
1、部分检验失效,比如变量的显著性检验
2、得到的参数估计值失效
3、模型的预测失效
以上的问题都是相关联的,一步错步步错!
第一步最好做相关性检验,看检验结果进行分析和处理,比如相关性分析,vif检验等。
如果实在是存在线性关联比较大,可以排除相应变量或者增加样本量到足够大
仅供参考

 

要回复问题请先登录注册