你的浏览器禁用了JavaScript, 请开启后刷新浏览器获得更好的体验!

BI 社区商业智能社区

深度学习在NLP中的应用---POS & NER & DAE

发表: 2017-03-22 浏览: 2300

深度学习机器学习

本文讨论的问题跟之前的单词向量学习类似，把其中的标量评分替换为softmax 或maxent分类器即可。训练过程也是通过后向反馈来完成的。

Clipboard Image.png

深度学习中比较有趣的是会学习输入的特征，当然，这需要借助于大规模文本数据集中的无监督预训练。其中比较有代表性的系统有：

POS: (Toutanova et al. 2003)，NER: (Ando & Zhang 2005)

数据集来自Wikipedia和Reuters，词窗大小为11，隐含层有100个节点，单词量为130,000的词嵌入训练耗时7周，然后用于有监督学习

其中 C & W 2011 是基于无监督的预训练和有监督的神经网络模型。

接下来介绍信息共享。为了真正实现人工智能，能够泛化到新任务中是至关重要的。深层结构能够学到比较好的中间表示，这些中间表示可以用于多个任务中。

为了将多个数据源融合起来，可以借助于共享嵌入来实现。其中涉及到关联性学习，多个信息源，多种关系，符号（比如单词，维基百科的记录）共享。共享嵌入可以跨数据源传递信息，比如 WordNet， XWN，Wikipedia，FreeBase等等。

半监督学习有助于基于少量有标签数据来学习模型。半监督学习中有一个假设：可以利用 P(x) 的共享结构来更精确地计算 P(c|x) 。

自编码对维度大小固定的输入效果比较好。自编码是多层的神经网络，其中output = input 并且 Reconstruction=decoder(encoder(input))。

特别的，PCA是一种线性流形，并且这种方法可以看作线性自编码。

流形学习示例：

自编码通过改变激活函数也可以类似于非线性PCA。

在自编码中，最小化重构误差能够迫使相似输入的隐含表示嵌入到流形中。

下面介绍一些自编码的变体。离散输入情形：可以利用交叉熵或对数似然函数形式的重构标准，类似于MLPs中目标离散的情形。为了防止自编码在隐含层中各个单元学到一致的表示，学者们提出了以下几种trick。

1 欠完备表示法，比如PCA，隐含层中的单元个数取得相对输入少一些。

2 稀疏性，将隐含层部分激活值限定在0或接近0 [Goodfellow et al 2009]

3 去噪法，先对输入加入噪声，然后利用污染后的输入预测真实输入[ Vincent et al 2008]

4 压缩编码法，迫使编码具有较小的导数 [Rifai et al 2011]

稀疏自编码在图像编码中应用比较广泛，比如

自编码可以堆叠起来，进而得到抽象层次更高的非线性表示 (Bengio et al NIPS’2006)。如下：

它的学习方式是逐层式无监督学习。具体过程如下：

对于分类问题，最后需要有监督的微调。

最后来说明下为什么无监督预训练有效，这主要来源于两方面的假设。

正则性假设：对于 P(x) 效果好的表示同样对 P(y|x) 表示效果也好。

优化方面的假设：无监督预训练可以为有监督训练提供比较好的初始值，使得初始值距离效果更好的局部最小值更近一些。

Clipboard Image.png

推荐 0

本文由深度学习创作，采用知识共享署名-相同方式共享 3.0 中国大陆许可协议进行许可。
转载、引用前需联系作者，并署名作者且注明文章出处。

本站文章版权归原作者及原出处所有。内容为作者个人观点，并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台，并不用于任何商业目的，如果有任何问题，请及时联系我们，我们将根据著作权人的要求，立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录或注册