一文看懂什么是机器学习（值得收藏）！

发表: 2018-03-26 浏览: 1426

机器学习

一、首先我们看机器学习的定义：

机器学习专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它关注的是使计算机程序能够像人一样根据经验的积累自动提高处理问题的性能。通俗地讲，机器学习就是计算机模仿人类思维和学习过程，实现自主学习，并作出判断与决策。机器学习研究的是如何对复杂模式进行自动学习分类，并以此作为最终决策的依据。机器学习要用有限的可观测样本训练分类器（虽然几乎所有文献都叫分类器，但个人认为叫做学习器更为妥当），使分类器自己理解、学习、归纳样本特征的分布规律，从而使其能够对随机输入的未知样本数据做出判断决策。

二、再看三个集合的概念：

训练集、验证集和测试集这三个词语在机器学习中经常提到。下面简单介绍一下这三个名词。训练集就是学习样本数据集，机器学习通过匹配一些参数来建立一种分类方式，也就是建立一个分类器。训练集主要是用来训练模型的。验证集是用来调整分类器的参数的样本集。测试集纯粹是为了测试已经训练好的模型的分类能力的样本集，比如模型的识别率。

三、机器学习的四种方式：

根据数据类型及业务诉求的不同，机器学习的学习方式主要分为无监督学习、监督学习、半监督学习以及增强学习。首先我们举个例子，让大家更形象地理解四种学习方式。

无监督学习：

你给小孩子一张画板，一支笔，告诉他要画一个小汽车。完全凭借小孩子的认知画出小汽车。

有监督学习：

你给小孩子一张画板，一支笔，告诉他要画一个小汽车，这个小汽车有四个轮子，一个方向盘，车的前后方都有车灯。小孩子通过对你提供信息的理解，画出小汽车。

半监督学习：

你给小孩子一张画板，一支笔，告诉他要画一个小汽车，这个小汽车有四个轮子，一个方向盘，车的前后方都有车灯。车上还要有雨刷，驾驶座位等（雨刷和驾驶座位的位置及形状不告诉小孩子）。通过你提供的信息，小孩子通过对你提供信息的理解，画出小汽车。

增强学习：

小孩子画出了一个小汽车之后，带着他去看真正的汽车是什么样子的，回来让他完善自己画小汽车。

开始不说人话

① 无监督学习是通过对没有概念标记的训练样本进行学习，也就是说没有目标变量,放入到模型里，完全让模型自己去发掘数据中的内在联系，或发掘未知数据间隐藏的结构关系。常用的无监督学习有关联规则和聚类分析。

② 监督学习是借助人工参与实现的一种学习方式。用一定数量的有标记数据作为训练样本。（通俗讲就是标记处出分类的目标变量，以及影响目标变量变化的自变量。）监督学习通过对有标记的训练样本进行学习，以尽可能正确地对训练样本集之外的样本标记进行预测。在监督学习中，每个输入样本都包括样本的特征向量和样本类别标记组成，训练过程中，训练算法通过分析样本特征向量，将预测结果与训练样本的实际标记情况进行比较，不断调整预测模型，直到预测模型的准确率达到一个预期的准确率。监督学习常用于样本分类问题和回归问题。监督学习一般可分为三步，分别是标记样本、训练模型和估计概率。常见的有逻辑回归、决策树和反向传递神经网络。

③ 半监督学习是一种介于无监督学习和监督学习之间的一种机器学习模型。半监督学习是根据已知的有限有标记数据和大量无标记数据，在分类过程中来不断训练分类器的一种机器学习方法。该学习模型也可用来预测，但是建立预测模型前首先要用已知有标记数据训练分类器模型，使分类器模型学习数据的内在结构联系以便合理地组织数据来进行预测。使用这种结合使用部分有标记数据和大量未标记数据的半监督学习分类器是，可以使学习算法的分类准确度取得相当可观的提升，并且这种分类器模型更类似与人的学习过程，使机器能够像人一样触类旁通。在实际的使用中，有标记数据较难获得，因为标记一般要人去操作，实际使用中的海量数据都由人去标记并不现实，人只能将极少的数据标记，其他都要计算机通过算法自己实现标记，并且利用计算机标记的数据再去训练分类器模型，使分类器模型随着分类的进行不断的学习更新，这种分类模式具有较高的实用价值。常用的半监督学习有支持向量机模型。

④ 增强学习是一种通过与环境的试探性交互来估计和优化实际动作，最终实现序列决策的任务。在这种学习模式下，输入数据作为对模型的反馈，不像监督模型那样，输入数据仅仅是作为一个检查模型对错的方式，在增强学习下，输入数据直接反馈到模型，模型对此立刻作出相应的调整。在这种学习方式中，学习机制根据试探性交互选择并执行动作，使系统状态发生变化，并根据状态变化获得某种强化信号，最终实现与环境的交互。如在机器人控制过程中，根据机器人运动过程中的不同状态反馈随时纠正机器人的姿态，从而使其直立行走。常用的增强学习算法有时间差学习算法等。

0 个评论

要回复文章请先登录或注册