你的浏览器禁用了JavaScript, 请开启后刷新浏览器获得更好的体验!

BI 社区商业智能社区

迁移学习系列---基于实例方法的迁移学习

发表: 2017-03-29 浏览: 4190

深度学习机器学习

机器学习中有一种特殊的类型，即迁移学习。简单来讲，将先前领域或任务中学到的知识或技能应用到新的领域或任务中，即为迁移学习。当然，要想迁移，需要保证二者之间有一定的共性。自然会遇到一个问题，给定一个目标领域或任务，如何找到当前领域或任务跟之前领域或任务的共性，并将之前领域或任务中的知识迁移到目标领域或任务中呢？

其中三种颜色分别表示三种领域，左图是传统的机器学习，右图即为迁移学习。

迁移学习可以用于不同的领域，比如增强学习。也可以用于分类问题或回归问题。

[Taylor and Stone, Transfer Learning for Reinforcement Learning Domains: A Survey, JMLR 2009]

[Pan and Yang, A Survey on Transfer Learning, IEEE TKDE 2010]

迁移学习是如何产生的呢？下面来看几个“导火线”。首先来看室内WiFi定位问题。

对于设备A 和设备B，利用设备A来训练并且用设备A来测试得到的平均距离误差大概为 1.5 meters，利用设备B来训练并且用设备A来测试得到的平均距离误差大概为 10 meters。这是由于两个域的差别造成的，示例如下图。

接下来看看情感分类问题。下面是一些用户评论，如何判定每条评论是积极的还是消极的呢？

上面是利用对电子设备的评论来训练情感分类器，然后将模型用于对电子设备的评论，准确率大概为84.6%，如果利用对DVD的评论来训练情感分类器，然后将模型用于对电子设备的评论，准确率为72.65%。两个领域有什么不同呢，下面是一些评论示例。

传统机器学习中假设训练数据和测试数据来自同一个领域，即处于同一个特征空间，服从同样的数据分布。然而实际应用中测试数据跟训练数据可能来自不同的域。

比如边际分布不同，或特征空间不同，

预测分布不同，或标签空间不同

那么如何针对感兴趣的域建立系统呢？如果针对每个域都建立一个系统，既耗时又消耗费用。倘若可以从已有系统中抽取可以复用的公用知识，那么系统就更加实用了。

迁移学习的目标可以用下图来概括

迁移学习可以分为以下四种方法

其中基于实例的方法对应的假设如下：

即源领域和目标领域具有很多交叠的特征，源领域和目标领域具有相同或相近的支撑集。基于实例的方法可以分为以下两种情形：

对于第一种情形，给定一个目标任务，参数估计如下：

如果

则有

再假设

则

如果令

则

那么问题来了，怎么估计

呢？并不推荐对分子和分母分别估计，然后求比值，推荐的方式是直接求比值的估计。这种方法需要用到矫正样本选择偏差，协变量转变。

[Quionero-Candela, etal, Data Shift in Machine Learning, MIT Press 2009]

什么是矫正样本选择偏差呢？这里有个假设：采样选择偏差是由数据生成过程引起的。假设一个拒绝采样过程，并且将源领域看作由目标领域采样而来。示例如下图

其中选择变量的分布将目标映射到源分布。

分母可以看作下面的分类问题：

源领域中的样本标为1，目标领域中的样本标为0，然后训练一个二值分类器。

[Zadrozny, ICML-04]

针对第二种情形，即

但是

可以利用这个启示：源领域中的部分带标签数据经过二次加权可以看作目标领域中的数据。Dai etal 在ICML中提出了 TrAdaBoost， [Dai etal ICML-07]

在每次增强迭代中，利用跟AdaBoost相同的策略来更新目标源中数据的权重，利用新的方法来减小源领域中错分数据的权重。

注：Adaboost 算法的思想可以概括为随着迭代次数的增加，逐渐增加错分样本的权重，每次迭代都更加注重难分样本。

参考资料：

http://ijcai13.org/files/tutorial_slides/td2.pdf

Pan, Sinno Jialin, and Qiang Yang. "A survey on transfer learning." IEEE Transactions on knowledge and data engineering 22.10 (2010): 1345-1359.

推荐 0

本文由深度学习创作，采用知识共享署名-相同方式共享 3.0 中国大陆许可协议进行许可。
转载、引用前需联系作者，并署名作者且注明文章出处。

本站文章版权归原作者及原出处所有。内容为作者个人观点，并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台，并不用于任何商业目的，如果有任何问题，请及时联系我们，我们将根据著作权人的要求，立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录或注册