数据挖掘常用模型--分类与预测

浏览: 1423

挖掘建模根据挖掘目标和数据形式可建立:分类与预测、聚类分析、关联规则、时序模式、偏差检测等模型。

分类与预测

分类


预测分类标号(离散属性),是构造一个分类模型,输入样本属性值,输出对应类别,将每个样本映射到预先定义好的类别。

分类模型,建立在已有类标记的数据集上,因此,属于“有监督学习”

预测


建立连续值函数模型,预测给定自变量对应的因变量的值。

指建立两种或两种以上变量间相互依赖的函数模型,进行预测或控制

常用分类与预测算法 

  • 回归分析:确定预测属性与其他变量间相互依赖的定量关系。包括:线性回归、非线性回归、Logistic回归、岭回归、主成分回归、偏最小二乘回归等模型。
  • 决策树:采用自顶向下的递归方式,在内部节点进行属性值比较,并根据不同的属性值从该节点向下分支,最终得到的叶节点是学习划分的类。
  • 人工神经网络:是一种模仿大脑神经网络结构和功能而建立的信息处理系统,表示神经网络的输入与输出变量之间关系的模型
    贝叶斯网络:又称信度网络,是Bayes方法的扩展,是目前不确定知识表达和推理领域最有效的理论模型之一
  • 支持向量机:是一种通过某种非线性映射,把低维的非线性可分转化为高维的线性可分,在高维空间进行线性分析的算法

回归分析


  • 线性回归:因变量与自变量是线性关系,对一个或多个自变量和因变量间的线性关系进行建模,可用最小二乘法求解模型系数
  • 非线性回归:因变量与自变量间不都是线性关系,对一个或多个自变量和因变量间的非线性关系进行建模。若非线性关系可通过简单的函数变换转化成线性关系,用线性回归的思想求解,若不能转化,用非线性最小二乘法求解
  • Logistic回归:因变量一般有1和0(是、否)两种取值,广义线性回归模型的特例,利用Logistic函数将因变量的取值范围控制在0、1之间,表示取值为1的概率
  • 岭回归:参与建模的自变量间具有多重共线性,是一种改进最小二乘估计的方法
  • 主成分回归:参与建模的自变量间具有多重共线性,主成分回归是根据主成分分析的思想提出的,是对最小二乘法的改进,它是参数估计的一种有偏估计。可消除自变量间的多重共线性

决策树


决策树是一种树状结构,它的每一个叶节点对应着一个分类,非叶节点对应着在某个属性上的划分,根据样本在该属性不同取值将其划分为若干个子集。应从已知类标记的训练样本中学习并构造出决策树,自上而下,分开进行解决。

  • ID3算法核心:在决策树的各级节点上,使用信息增益方法作为属性的选择标准,来帮助确定生成每个节点时所应采用的合适属性。
  • C4.5算法:相对于ID3算法的重要改进:使用信息增益率来选择节点属性。C4.5可客服ID3算法的不足:ID3算法只适用于离散的描述属性,而C4.5算法既能处理离散的描述属性,也可处理连续的描述属性
  • CART算法:是一种非参数分类和回归方法,通过构建树、修剪树、评估树来构造一个二叉树。当终结点是连续变量时,该树为回归树;当终结点是分类变量,该树为分类树

推荐 0
本文由 贝克汉姆 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册