机器学习札记4—《统计学习方法》-第一章(3)

浏览: 1360

生成模型与判别模型

监督学习的任务就是学习一个模型,这个 模型一般是决策函数:Y=f(X)或者条件概率分布:P(Y|X)

分类

监督学习的方法分为两类:

  • 生成方法
  • 判别方法

生成方法

生成方法由数据学习联合概率分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测模型,生成模型为:P(Y|X)=\frac{P(X,Y)}{P(X)}

  • 典型算法:朴素贝叶斯法和隐马尔可夫模型
  • 特点:
    • 更够还原出联合概率分布P(X,Y)
    • 样本容量多时,学习收敛速度快,能够更快地收敛于真实模型

判别方法

判别方法由数据直接学习决策函数f(X)或者条件概率分布P(Y|X)作为预测的模型。判别方法关心的是给定输入X,应该预测出什么样的Y值。

  • 典型算法:k近邻法、感知机、决策树、逻辑斯蒂回归、最大熵模型、支持向量机、条件随机场等
  • 特点:
    • 直接学习条件概率或者决策函数,学习的准确率更高
    • 能够对数据进行各种程度上的抽象,定义特征和使用特征,简化学习问题

监督学习应用

分类问题

在监督学习中,输出变量Y取有限个离散值,预测问题变成了分类问题。输入变量X离散或者连续均可。分类问题有学习和分类两个过程:

  • 学习:根据已知的训练数据集利用学习方法学习一个分类器
  • 分类:利用学习过程中得到的分类器,对新的输入实例进行分类

评价指标

评价分类问题的指标是分类准确率accuracy。定义:给定的预测数据集,分类器正确分类的样本数/总样本数,也是损失函数是0-1损失时候测试机数据上的准确率:
r_{test}=\frac{1}{N'}\sum_{i=1}^{N'}I(y_i={\hat f(x_i)})

对于二分类问题常用的评价指标是:精准率precision和召回率recall。根据实际结果和预测结果的正负性,有4种情况:
第一个字母表示预测的正确或者错误;第二个字母表示预测出来的结果

  • TP:将正类预测为正类
  • FN:将正类预测为负类
  • FP:将负类预测为正类
  • TN:将负类预测为负类

1:表示预测为正例;0:表示预测为负例

image.png

精准率定义为:预测为正例的数据里预测正确的个数P=\frac{TP}{TP+FP}召回率定义为:真实为正例的那些数据里预测正确的数据个数R=\frac{TP}{TP+FN}

F_1值是精准率和召回率的调和平均值,定义为\frac{2}{F_1}=\frac{1}{P}+\frac{1}{R}=\frac{2TP}{2TP+FP+FN}

关于精准率和召回率以及混淆矩阵的知识点,参考:

https://www.cnblogs.com/liweiwei1419/p/9870034.html

https://zhwhong.cn/2017/04/14/ROC-AUC-Precision-Recall-analysis/

image.png

具体应用

  • 银行业务:构建客户分类模型,对客户按照贷款风险的大小进行分类
  • 网络安全:可以利用日志数据的分类对非法入侵进行检测
  • 手写识别:用于识别手写的数字
  • 互联网搜索:网页的分类可以帮助网页的抓取、索引和排序

标注问题

标注tagging问题输入的是一个观测序列,输出的是一个标记序列或状态序列。标注问题分为学习和标注两个过程。应用领域

  • 信息抽取
  • 自然语言处理NLP,词性标注问题

常用标注问题的统计学习方法:

  • 隐马尔可夫模型
  • 条件随机场

回归问题

特点

回归问题是监督学习的另一个重要问题。回归用于预测输入变量和输出变量之间的关系。

  • 回归的模型正是输入和输出变量之间映射的函数。
  • 回归函数的学习等价于函数拟合
  • 回归问题分为学习和预测

基本过程:从训练数据集构建一个模型,即函数Y=f(X),然后对新的输入x_{N+1}根据学习到的模型Y=f(X)确定相应的输出y_{N+1}
损失函数:回归问题中常用的损失函数是平方损失函数,通过最小二乘法求解

应用

  • 商务领域:市场预测、产品质量管理
  • 股价预测:
推荐 0
本文由 皮大大 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册