NIPS 2016 深度学习 迁移学习 ---残差转移网络用于无监督领域自适应

浏览: 2487

深度学习的成功得益于大量的标注数据,而数据标注是非常消耗资源的。当一个问题中缺少标注数据时,可以从另一个源中所学知识迁移过来,并且用于新问题中。

清华大学的学者提出了一种新的方法(https://arxiv.org/pdf/1602.04433.pdf),它可以在源领域中学习自适应分类器,并且可以将所学特征迁移到目标域的无标签数据中。

Unsupervised Domain Adaptation with Residual Transfer Networks
Mingsheng Long*, Tsinghua University; Han Zhu, Tsinghua University; Jianmin Wang, Tsinghua University; Michael Jordan, University of California, Berkeley

这种方法将特征嵌入到可再生核希尔伯特空间中,匹配特征分布,以便特征自适应。其中的自适应借助于对前向模型加以扩展,即加入新的残差层和损失函数。

注:训练样本集和测试样本集之间存在某种变换关系时,所学判别模型就是领域适应问题,也是迁移学习的一种特例 (Pan & Yang, 2010)。本篇论文主要源于 ImageNet ILSVRC 2015 中的一篇论文 He et al. (2015)。

本文贡献在于:

(1) 为领域适应提出一种新的残差迁移网络模型,其中分类器和特征都是自适应的。 (2) 为领域适应问题探索出一个深层残差学习框架,在目标领域中不需要标签数据。

这种方法具有一定的通用性,因为它几乎可以用于所有现有前向结构中。

下面简单介绍下模型。

源领域中的经验误差定义如下:


其中交叉熵损失函数定义如下:


作者所提残差迁移网络模型结构如下:


下图是残差学习的构建单元,通过下面的构建单元可以将源领域中的分类器(激活前)和目标领域中的分类器(激活前)桥接起来。

这样可以保证不涉及到类别标签,因为目标领域问题中是没有标签的。


其中 He et al. (2015) 给出了



其中


是条件概率,累加项是条件熵损失函数。通过最小化交叉熵惩罚项(3),目标领域的分类器就可以用于目标领域中的无标签数据。

特征适应需要最小化下面函数


如果令 Hk 是核函数为k的可再生核希尔伯特空间,则p和q之间的多核最大平均差异 (MK-MMD) (Gretton et al., 2012b) 定义如下:


这个差异度量具有如下特性 (Gretton et al., 2012a):


将特征学习(1),分类器自适应(2) (3),特征自适应(4)集成起来就可以得到作者提出的残差迁移网络:


其中 γ 和 λ 分别是交叉熵惩罚函数(3)和多层MK-MMD惩罚(4)的折衷参数。

实验

实验过程的预训练基于ImageNet 2012的 AlexNet 模型,微调过程参考了 (Long et al., 2015).

实验结果




其中

Transfer Component Analysis (TCA) (Pan et al., 2011),

Geodesic Flow Kernel (GFK) (Gong et al., 2012), Deep Domain Confusion (DDC) (Tzeng et al., 2014),

Deep Adaptation Network (DAN) (Long et al., 2015),

Reverse Gradient (RevGrad) (Ganin & Lempitsky, 2015).



其中 t-Distributed Stochastic Neighbor Embedding (t-SNE) (Donahue et al., 2014) 是一种用于降维的技巧,非常适合对高维数据可视化。


参考资料:

Pan, S. J. and Yang, Q. A survey on transfer learning. TKDE, 22(10):1345–1359, 2010.

He, K., Zhang, X., Ren, S., and Sun, J. Deep residual learning for image recognition. arXiv preprint arXiv:1512.03385, 2015.

Long, M., Cao, Y., Wang, J., and Jordan, M. I. Learning transferable features with deep adaptation networks. In ICML, 2015.

Gretton, A., Borgwardt, K., Rasch, M., Sch¨olkopf, B., and Smola, A. A kernel two-sample test. JMLR, 13:723–773, March 2012a.

Gretton, A., Sriperumbudur, B., Sejdinovic, D., Strathmann, H., Balakrishnan, S., Pontil, M., and Fukumizu, K. Optimal kernel choice for large-scale two-sample tests. In NIPS, 2012b.

Pan, S. J., Tsang, I. W., Kwok, J. T., and Yang, Q. Domain adaptation via transfer component analysis. TNNLS, 22 (2):199–210, 2011.

Gong, B., Shi, Y., Sha, F., and Grauman, K. Geodesic flow kernel for unsupervised domain adaptation. In CVPR, 2012.

Tzeng, E., Hoffman, J., Zhang, N., Saenko, K., and Darrell, T. Deep domain confusion: Maximizing for domain invariance. 2014.

Ganin, Y. and Lempitsky, V. Unsupervised domain adaptation by backpropagation. In ICML, 2015.

https://arxiv.org/pdf/1602.04433.pdf

推荐 0
本文由 深度学习 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册