NLP模型超越人类水平？你可能碰到了大忽悠

发表: 2019-09-11 浏览: 1422

图像分类

文章发布于公号【数智物语】（ID：decision_engine），关注公号不错过每一篇干货。

来源 | 大数据文摘（id：BigDataDigest）
来源 | thegradient
编译 | 张睿毅、武帅、钱天培

一个军方训练的神经网络声称可以分类图像中的坦克，但实际上，它只是学会了识别不同的亮度，因为一种类型的坦克仅出现在明亮的图片中，而另一种类型仅出现在较暗的图片中。

一个游戏AI在学会了在第一关的最后故意死去，而不是在更难的第二关的开局死去，因为这样可以得到更高的分数。

AI通过某种让人啼笑皆非的奇怪方式尝试骗过人类，并达到自己的目的。

模型通过学习“错误”的信息来解决任务的问题已经存在很长时间了，并被称之为“聪明汉斯效应（Clever Hans effect）”。

该效应说的是，一匹名为汉斯的马看似能完成一些简单的智力任务，但实际上只是依赖于人们给出的无意识线索。

“聪明汉斯效应（Clever Hans effect）”在图像检测领域早已有之，但最近，在一篇最新论文中，来自台湾国立成功大学的Niven和Kao指出，这一现象也正在NLP领域大受关注。脱去它的影响后，BERT也许没有我们想得那么神奇。

先附上论文链接，再一起看看这个论证过程https://www.aclweb.org/anthology/P19-1459/

Niven和Kao采用了一个论证理解数据集。随机选择的准确率为50％；之前表现最好的模型的准确率为71％；然后他们选择了BERT，仅仅微调后，便达到了惊人的77%的准确率。

如此看来，BERT似乎确实名不虚传。

但是，作者对这一看似很成功的“微调”产生了怀疑，并尝试对此进行论证。

01NLP迎来“聪明的汉斯”时刻

论证理解是一项相当困难的任务，需要世界知识和常识推理。虽然BERT毫无疑问是目前为止最好的语言模型之一，其迁移学习正是“NLP的Imagenet时刻”，但鲜有证据表明，语言模型已经习得高级自然语言理解这一技能。

给定一个论点和一个原因，我们需要找出使得该推理成立的论据。

举个例子，假设论点是“谷歌不存在垄断”，原因是“人们可以选择不使用谷歌”。这一推理成立背后需要一个论据，即“其他搜索引擎并没有导向谷歌”。但是如果说“其他搜索引擎都导向了谷歌”，那么论点就不能成立了。

作者也对BERT模型进行了三项分析。

首先，他们在可能的答案（即论点）中计算了一元文法（unigrams）和二元文法（bigrams），并观察到像not，is，or之类的单个一元文法相较于随机概率而言，能够更好地预测出正确的论点。这表明这些线索是有用的，并且也可能为模型所利用。

接着，为了检查模型是否确实利用了这些线索，作者只给模型提供了部分输入，这使得模型不可能推出正确答案。例如，如果没有给出论点或原因，就不可能推断出“其他搜索引擎没有重定向到谷歌”或“其他搜索引擎全都重定向到了谷歌”这两个论据哪一个是正确的。然而，模型并不理会这一不可能性，并以71%的准确率识别出了正确的论点。

在试验完其他两项类似的任务之后（仅论点和论据；仅原因和论据），作者总结到，数据集中包含着统计线索，而BERT的良好表现完全归功于对这些线索的利用。

为了说明这一点，在他们的第三个实验中，作者构建了一个数据集，其中的线索不再提供信息，发现BERT性能下降到随机概率水平。

相信大多数人会同意，一个基于大量的如not，is，do之类的一元文法做出预测的模型是不可能真正理解论证的。

因而，作者声明他们的SOTA结果毫无意义。

这让人联想到最近两个臭名昭著的案例。一个是图像分类器，声称能够区分罪犯的面孔和守法公民的面孔，但实际上只是在检测微笑；另一个是所谓的“性取向检测器”，实则是在检测眼镜，胡须和眼影。