1
推荐
1695
阅读
降维与度量学习
K近邻学习K近邻学习简称knn,是一种常用的监督学习方法,其工作机制简单,给定测试样本,基于某种距离度量找出训练集中与其最靠近的K个训练样本,然后基于这K个邻居的信息来进行预测,通常在分类任务中可使用投票法即选择这K个样本中出现最多的类别标记作为预测结果;在回归任务中可使用平均法即将这K个样本的实值输出标...
1
推荐
1545
阅读
神经网络
神经元神经网络由具有适应性的的简单单元组成的广泛并行互连的网络,它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应。神经网络最基本的部分就是神经元模型。在神经元模型中,神经元接收来自n个其他神经元传递来的输入信号,这些输入信号通过带权重的连接进行传递,神经元接收到的总输入与神经元的阈值进行...
1
推荐
2309
阅读
集成学习之Bagging
我们知道,想得到泛化性能强的集成,集成中的个体学习器应尽可能相互独立,虽然独立在现实中无法做到,但是可以设法使基学习器具有较大差异。BaggingBagging是并行式集成学习方法最著名的代表,它是基于前面博客提到的自助采样法:给定m个样本的数据集,我们随机取出一个样本放入采样集中,再把该样本放回初始数据集,使...
0
推荐
1351
阅读
集成学习之Boosting
集成学习通过构建并结合多个学习器来完成学习任务,也被称作多分类器系统、基于委员会的学习(大概是因为它的工作原理与委员会工作机制相似)等。所谓集成算法顾名思义就是先产生一组个体学习器,再用某种策略将这些个体学习器结合起来,个体学习器也可以称为组件学习器。当这些个体学习器为同种类型的,则称它们为同质的...
0
推荐
2195
阅读
模型评估与选择之比较检验
之前的博客讲了使用某种实验评估方法测得学习器的某个性能度量结果,但是怎么比较这些性能度量的结果呢?统计假设检验为我们进行学习器性能的比较提供了重要依据。基于假设检验结果可以推断出:若在测试集上观察到学习器A比B好,则A的泛华能力是否在统计意义上优于B,以及这个结论的把握有多大。由于自己的统计学知识储...
1
推荐
1236
阅读
模型评估与选择之性能度量
在预测任务中,要评估学习器的性能,就要将学习器的预测结果与真实标记进行比较。下面将介绍几个评估学习器性能的方法:首先给定样例集:,其中是示例的真实标记,想评估学习器的性能的话需要将与真实标记进行比较。1.回归任务中常见的度量(均方误差)均方误差表示:2.错误率与精度错误率与精度是最常用的两种性能度量方...
1
推荐
1698
阅读
模型评估与选择之评估方法
训练误差和泛化误差在训练集上的误差称为训练误差或者经验误差,在新样本上的误差称为泛化误差。误差评估方法使用测试集来测试学习期对新样本的判别能力,然后以测试集上的测试误差作为泛化误差的近似。需要注意一点:测试集尽量与训练集互斥。1.留出法直接将数据集D划分为两个互斥的集合,一个集合为训练集S,另一个集...