从零开始学Python自然语言处理(24)—— 巧妙的条件随机场(CRF)(下)

浏览: 2999

前文传送门:

从零开始学自然语言处理(23)—— 巧妙的条件随机场(CRF)(上)

在上一篇中,我们讲解了条件随机场中的线性链条件随机场基本概念,在本篇中,我们继续学习。我们如何将线性链条件随机场转化为可计算的数学公式呢?主要是通过特征函数和它的权重系数来定义出公式的。

在线性链条件随机场中,主要有两种特征函数,一种是与当前Y节点(词性节点)有关的特征函数——sl(yi, x, i), i=1,2,...,L,其中,L为定义在当前节点的节点特征函数总个数。i 是当前节点在序列的位置。另一种是定义在Y上下文的局部特征函数,这类特征函数只与当前节点和上一个节点有关——tk(y(i-1), yi, x, i), k=1,2,...,K,其中,K为定义在当前节点的局部特征函数总个数。i 是当前节点在序列的位置。局部特征函数充分体现了线性链CRF的马尔可夫性(只和直接连接的结点相关)。以上两种特征函数的取值只能是0或者1,当满足特征条件时取值为1,不满足时取值为0。

例如:在词性标注的任务中,如果两个连续的动词(v)出现,我们假设可以给-1分,由于特征函数只能取值0或者1,我们可以给tk(y(i-1), yi, x, i)这个特征函数前面乘上权重λk,让λk=-1,则当y(i-1)=v, 并且yi=v,则λk*tk(y(i-1)=v, yi=v, x, i)=-1,如果当前节点上没出现连续两个动词词性,则λk*tk(y(i-1)=v, yi=v, x, i)=0,当然,这里只是举例了当前节点上的一个tk局部特征函数,该节点上可能还有很多其他特征函数,例如把当前节点标记为形容词(a)能得到2分,则可以写为:μl*sl(yi=a, x, i)=2,其中μl为sl节点特征函数的权重。理解了以上两种特征函数和相应的权重之后,我们能够很好理解以下的线性链CRF的参数化表示了:首先看看官方的定义:

设P(X|Y)为线性链条件随机场,则在随机变量X取值为x的条件下,随机变量Y取值为y的条件概率具有如下形式:

image.png

上式中,tk和sl分别是节点特征函数和局部特征函数,λk和μl是对应的权重取值,这些在上文已经提到过。Z(x)是规范化因子,听起来挺专业的,其实Z(x)就是作为所有情况的求和,目的是作为分母来达到归一化的目的。

铺垫到了现在,上面两个公式其实就好理解了,我们先看P(y|x)公式中的后面exp中的内容,这是一个只有变量x和yi和y(i-1)的表达式,因为权重和特征函数是我们之前就定义好的,所以变量只是x和y(y包括yi和y(i-1)),再看看上面的图,是不是好理解了,通过这个条件概率表达式,我们可以求出任意一种特征出现的条件概率,例如P(y1=r,y2=v,y3=v,y4=nr|x)代表一段文字第一个位置标记为代词(r),第二个词标记为动词(v),第三个词标记为动词(v),第四个词标记为人名(nr)的条件概率。而Z(x)公式中多了一个y的求和,也就是包含了句子所有可能的序列标注序列求和的概率(刚才的"r v v nr"只是其中一种序列)。

我们举一个例子来让这个公式更容易理解:有一个词性标注的问题:输入的观测序列为X=(羊,吃,草),输出的词性标注序列为Y=(Y1,Y2),其中,Y的取值只能在 {n,v} 中选择。

假设tk和sl与对应的权值λk和μl如下所示:

image.png

其他情况下t1取值为0

以下是其他特征函数的情况:

image.png

对于给定的观测序列 x(词序列) ,求标记序列 y(词性标注结果序列)为y=(y1, y2, y3)=(n, v, n) 的非规范化条件概率,即没有除以规范化因子的条件概率,将之前提到的公式展开:

根据上面的特征函数,计算求和为:(1+1)+(1+0.5+0.8)=4.3

即P(y1=n, y2=v, y3=n|x) 的为规范化概率为4.3也就是“羊 吃 草”词性标注为“名词n 动词v 名词n”的非规范化概率为4.3。大家是不是会计算条件随机场出现某序列的非规范化条件概率了呢?大家想想,当我们将所有可能出现的标注序列都计算完概率后,取概率最大的即可作为改序列的词性标注结果~

扫码下图关注我们不会让你失望!

image.png

推荐 0
本文由 ID王大伟 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册