本文共 4486 字,大约阅读时间需要 14 分钟。
BERT是谷歌近期发布的一种自然语言处理模型,它在问答系统、自然语言推理和释义检测(paraphrase detection)等许多任务中都取得了突破性的进展。在这篇文章中,作者提出了一些新的见解和假设,来解释BERT强大能力的来源。作者将语言理解框架分解为解析和组合两个部分,注意力机制主要体现在解析过程,而组合过程也在BERT中起到了重要作用,因此作者提出对于BERT Transformer来说:attention isn’t all you need!
是谷歌近期发布的一个自然语言处理模型,它在问答系统、自然语言推理和释义检测(paraphrase detection)等许多任务中都取得了突破性的进展。并且由于BERT是开源的,因此它在学界很受欢迎。
下图显示了分数的演变,GLUE基准分数是多种NLP评估任务的平均分数。
虽然目前还不清楚是否所有的GLUE任务都是非常有意义的,但是基于Transformer编码器的通用模型(open-GPT、BERT和BigBird)在不到一年的时间内就缩小了任务专用模型与人类的差距。
然而,正如Yoav Goldberg在论文中所指出的,我们并不能完全理解Transformer是如何编码句子的。与RNN相比,Transformer完全依赖注意力机制,并且,除了用单词的绝对位置嵌入来标记每个单词之外,Transformer对单词顺序没有明确的概念。这种对注意力的依赖可能导致它在对语法敏感的任务上表现较差,而RNN(LSTM)模型能够直接对单词顺序建模,并显式跟踪句子状态。
目前已有一些文章探讨了BERT的技术细节。在这里,我们尝试提出一些新的见解和假设,来解释BERT强大能力的来源。
人类理解语言的方式是一个长期存在的哲学问题。在20世纪,两个互补的理论揭示了这个问题:
:词组的含义来源于单个单词的含义,以及这些单词组合的方式。根据这一原理,名词短语“食肉植物(carnivorous plants)”的含义可以通过“食肉(carnivorous)”和“植物(plant)”的组合过程中推导出来。
另一个原理是:通过分析,句子可以分解成简单的结构,如从句。而从句又可以进一步分解为动词短语和名词短语,等等。
通过对句子的层次结构进行解析,并递归地从其组成部分中推导含义,直到达到句子层面,这是一个很好的语言理解方法。假设这样一句话,“Bart watched a squirrel with binoculars(巴特用望远镜观察一只松鼠)”。一个好的解析组件可以生成下面的分析树:
句子的意思可以从连续的组合中推导出来,首先是“a”和“squirrel”的组合,然后是“watched”和“a squirrel”的组合,最后是“watched a squirrel”和“with binoculars”的组合,直到得到整个句子的意思。
向量空间(词嵌入)可用于表示单词、词组和句子的其他成分。组合过程可以构造为函数f,该函数将(“a”、“squirrel”)组合成一个有意义的向量表示,“a squirrel”=f(“a”、“squirrel”)。
然而,组合和解析都是很困难的任务,并且它们互相依赖。
显然,组合过程需要依靠解析的结果来确定应该组合什么。但即使有了正确的输入,组合也是一个难题。例如,形容词的含义会根据它所描述的单词而变化:“white wine(白葡萄酒)”的颜色实际上是黄色的,而“white cat(白猫)”确实是白色的。这种现象称为共同组合(co-composition)。
更广泛的上下文环境对于组合过程也是必要的。例如,“green light(绿灯)”中的词应该如何组合取决于具体情况。“绿灯”可以表示授权,或实际绿色的灯。有些习惯用语的含义需要某种形式的记忆,而不单单是组合。因此,在向量空间中完成这种组合需要强大的非线性函数,如深度神经网络(也具有记忆功能 )。
相反,解析操作在某些情况下可能需要组合才能工作。例如同一句子“Bart watched a squirrel with binoculars”的另一种解析树:
尽管它在语法上是成立的,但是这种解析导致了对句子的一种奇怪的解释:巴特看着一只松鼠拿着望远镜。然而,必须用某种形式的组合才能证明“一只松鼠拿着望远镜”是不太可能发生的事情。通常,在推导出恰当的结构之前,必须对背景知识进行消歧和整合。但是这个过程也可以通过某种形式的解析和组合来实现。
一些模型试图将解析和组合一起应用到实践中 ,但是它们有一个限制条件,即依赖于手动标注的标准解析树,此外,它们已经被更简单的模型所超越了。
我们假设Transformer在很大程度上依赖于这两个操作,但是以一种创新的方式:由于合成和解析互相需要,Transformer通过迭代过程,连续的执行解析和合成步骤,以解决相互依赖的问题。Transformer是由几个堆叠的层(也称为块)组成的。每个块由一个注意力层和其后的非线性函数(应用于token)组成。
我们将主要解释这些结构与解析-组合框架之间的联系。
在BERT中,注意力机制让输入序列(由单词或子单词token构成的句子)中的每个token注意到其它的token。
为了说明这一点,我们使用中的可视化工具深入研究了注意力头(attention head),并在预训练的BERT base Uncased模型上(谷歌发布的4种预训练的BERT模型的一种)测试了我们的假设。在下面一个注意力头的例子中,“it”这个词注意到了其他所有的token,并且似乎注意力集中在“street”和“animal”上。
BERT的每一层包含12个独立的注意力机制。因此,在每一层,每个token都可以关注其他token的12个不同方面。由于Transformer使用许多不同的注意力头(这里的base BERT模型用了12*12=144个),每个注意力头可以集中关注不同类型成分的组合。
我们省去了与“[CLS]”和“[SEP]”token相关的注意力值。我们用几个句子做了测试,发现很难做到不过度解释结果,所以你可以随意用不同的句子在这个上测试我们的假设。请注意,在图中,左侧的序列关注右侧的序列。
在第2层中,注意力头 1似乎会基于相关性形成组合成分。
更有意思的是,在第3层中,注意力头 11似乎显示了更高级别的成分:一些token关注相同的中心词(if、keep、have)。
在第5层中,注意力头6采取的匹配过程似乎关注特定的组合,尤其是涉及动词的组合。像[SEP]这样的特殊token似乎被用来表示匹配关系的缺失。这可以使注意力头发现适合组合的特定结构。这种一致的结构可以输入给组合函数。
任意树可以用连续的浅层解析层表示,如下图所示:
通过对BERT注意力头的查看,我们没有发现如此清晰的树状结构,但是Transformer仍然有可能对其进行表示。我们注意到,由于编码是在所有层上同时进行的,因此很难正确地解释BERT在做什么。对给定层的分析只对其下一层和上一层有意义。解析也分布在各个注意力头上。
下图以两个注意力头为例,显示了BERT的注意力机制实际的情况:
然而,正如我们之前所见,解析树是一个高级别的表示,它可能建立在更复杂的“根茎”结构上。 例如,我们可能需要找出代词所引用的内容,以便对输入进行编码(共指消解 coreference resolution:将现实世界中同一实体的不同描述合并到一起的过程,共指在自然语言中起到了超链接的作用,但也在其中增加了新的模糊成分)。在其他情况下,也可能需要全局上下文来消除歧义。
令人惊讶的是,我们发现一个注意力头(第6层注意力头 0)似乎真的进行了共指消解。 而且,正如文章所指出的,一些注意力头似乎为每个单词提供了全局上下文(第0层注意力头0)。
在一个句子中,每个词都注意到其他的词,这或许可以对每个词进行粗略的语境化。
在每一层中,所有注意力头的输出被级接,并输入到一个可以表示复杂非线性函数的神经网络(这是实现一个有表达能力的组合过程所需要的)。
依靠来自注意力头的结构化输入,该神经网络可以进行各种组合。 在之前展示的第5层中,注意力头6可以引导模型进行以下组合: (we, have),(if, we),(keep, up),(get, angry)。 该模型将它们进行非线性组合,并返回组合后的表示。因此,多注意力头可以视作为组合过程铺平道路的工具。
虽然我们没有发现注意力头关注某些更一致的组合,如形容词/名词,但是动词/副词的组合与模型所利用的其他组合之间可能存在一些共同点。
除了以上的组合,还存在许多可能相关的组合(单词-子词,形容词-名词,动词-介词,从句-从句)。进一步讲,我们可以将消歧(disambiguation)看作是把一个歧义词(bank)和相关语境词(river或cashier)进行组合的过程。在组合期间,模型也可以将给定上下文中与概念相关的背景知识进行整合。这种消歧也可能出现在其他层面(例如句子层面,从句层面)。
此外,组合过程还可能涉及词序推理。有人认为,位置编码(positional encoding)(位置编码是一个矢量,与输入内嵌表示求平均,以便生成输入序列中每个token的位置感知表示)可能不足以正确地编码单词的顺序。然而,位置编码的目的是编码每个token粗粒度、细粒度,甚至准确的位置。因此,基于两个位置编码,非线性合成在理论上可以基于单词相对位置进行关系推理。
综上所述,我们认为在BERT自然语言理解中,组合阶段也起到了重要作用,因此你所需要的并不只有注意力(Attention isn’t all you need)。
我们提出了对Transformer的归纳偏置的一些见解。然而,我们必须记住,我们的解释可能对Transformer的能力持乐观态度。需要注意的是,LSTM能够隐式处理树状结构和组合过程。但是LSTM有其局限性,其中一些是由于梯度消失问题所导致的。因此,要解释Transformer的局限性还需要进一步的工作。
查看英文原文:
转载地址:http://vlevx.baihongyu.com/