Self Attention就是Q、K、V均为同一个输入向量映射而来的Encoder-Decoder
Attention,它可以无视词之间的距离直接计算依赖关系,能够学习一个句子的内部结构,实现也较为简单并且可以并行计算。
Multi-Head
Attention同时计算多个Attention,并最终得到合并结果,通过计算多次来捕获不同子空间上的相关信息。
一、Self-Attention
首先,从每个编码器的输入向量(在本例中为每个单词的嵌入)创建三个向量 :Query-vec, Key-vec, Value-vec,生成方法为分别乘以三个矩阵( ),这些矩阵在训练过程中需要学习。不是每个词向量独享3个matrix,而是所有输入共享3个转换矩阵;权重矩阵是基于输入位置的转换矩阵。
这些新向量的维度小于嵌入向量。 它们的维度为
64,而嵌入和编码器输入/输出向量的维度为
512。减小长度的原因是可以使多头注意力的计算更稳定
接下来:
计算Self-Attention分数。 假设正在计算本例中第一个单词“Thinking”的自注意力。需要根据输入句子的每个单词对这个单词进行评分。当在某个位置对单词进行编码时,分数决定了对输入句子的其他部分的关注程度。分数是通过Query-vec与要评分的各个单词的Key-vec的点积来计算的。
因此,如果处理位置 #1 中单词的自注意力,第一个分数将是 和 的点积。 第二个分数是 和 的点积
将分数除以 8( 使用的Key-vec维度的平方根 –
64。使梯度更稳定)
将结果传递给 softmax 运算。 Softmax
对分数进行归一化,使它们全部为正值并且加起来为
1。softmax分值决定着在这个位置,每个词的表达程度(关注度)。很明显,这个位置的词应该有最高的归一化分数,但大部分时候总是有助于关注该词的相关的词。
将softmax分值与value-vec按位相乘。 保留关注词的value值,削弱非相关词的value值。
将所有加权向量加和,产生该位置的self-attention的输出结果。
上述就是self-attention的计算过程,生成的向量流入前向网络。在实际应用中,上述计算是以速度更快的矩阵形式进行的。下面看下在单词级别的矩阵计算。
首先,计算 矩阵。 将所有输入词向量合并成输入矩阵 ,并且将其分别乘以权重矩阵 , , 。
最后,通过self-attention层输出公式计算输出
1.1 CNN,RNN,Self-Attention对比
比较下面几个架构,目标都是将由 个词元组成的序列映射到另一个长度相等的序列,其中的每个输入词元或输出词元都由 维向量表示。
卷积核大小为 的卷积层。序列长度是 ,输入和输出的通道数量都是 ,所以卷积层的计算复杂度为 。卷积神经网络是分层的,因此为有 个顺序操作,最大路径长度为 。例如, 和 处于卷积核大小为3的双层卷积神经网络的感受野内。
当更新循环神经网络的隐状态时, 权重矩阵和 维隐状态的乘法计算复杂度为 。由于序列长度为 ,因此循环神经网络层的计算复杂度为 。有 个顺序操作无法并行化,最大路径长度也是 。
在自注意力中,查询、键和值都是 矩阵。使用缩放的”点-积“注意力,其中 矩阵乘以 矩阵。之后输出的 矩阵乘以 矩阵。因此,自注意力具有 计算复杂性。每个词元都通过自注意力直接连接到任何其他词元。因此,有 个顺序操作可以并行计算,最大路径长度也是 。
卷积神经网络和自注意力都拥有并行计算的优势,而且自注意力的最大路径长度最短。但是因为其计算复杂度是关于序列长度的二次方,所以在很长的序列中计算会非常慢。
1.2 位置编码
为了让Attention使用序列的顺序信息,通过在输入表示中添加位置编码 (positional
encoding)来注入绝对的或相对的位置信息。位置编码可以通过学习得到也可以直接固定得到。接下来描述的是基于正弦函数和余弦函数的固定位置编码:
假设输入表示 包含一个序列中 个词元的 维嵌入表示。位置编码使用相同形状的位置嵌入矩阵 输出 ,矩阵第 行、第 列和 列上的元素为:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 class PositionalEncoding (nn.Module): """位置编码""" def __init__ (self, num_hiddens, dropout, max_len=1000 ): super (PositionalEncoding, self ).__init__() self .dropout = nn.Dropout(dropout) self .P = torch.zeros((1 , max_len, num_hiddens)) X = torch.arange(max_len, dtype=torch.float32).reshape( -1 , 1 ) / torch.pow (10000 , torch.arange( 0 , num_hiddens, 2 , dtype=torch.float32) / num_hiddens) self .P[:, :, 0 ::2 ] = torch.sin(X) self .P[:, :, 1 ::2 ] = torch.cos(X) def forward (self, X ): X = X + self .P[:, :X.shape[1 ], :].to(X.device) return self .dropout(X)
在位置嵌入矩阵 中,[行代表词元在序列中的位置,列代表位置编码的不同维度 ]。从下面的例子中可以看到位置嵌入矩阵的第 列和第 列的频率高于第 列和第 列。第 列和第 列之间的偏移量(第 列和第 列相同)是由于正弦函数和余弦函数的交替。
1 2 3 4 5 6 7 encoding_dim, num_steps = 32 , 60 pos_encoding = PositionalEncoding(encoding_dim, 0 ) pos_encoding.eval () X = pos_encoding(torch.zeros((1 , num_steps, encoding_dim))) P = pos_encoding.P[:, :X.shape[1 ], :] d2l.plot(torch.arange(num_steps), P[0 , :, 6 :10 ].T, xlabel='Row (position)' , figsize=(6 , 2.5 ), legend=["Col %d" % d for d in torch.arange(6 , 10 )])
绝对位置信息
为了明白沿着编码维度单调降低的频率与绝对位置信息的关系,打印出 的[二进制表示 ]形式。正如所看到的,每个数字、每两个数字和每四个数字上的比特值在第一个最低位、第二个最低位和第三个最低位上分别交替。
1 2 for i in range (8 ): print (f'{i} 的二进制是:{i:>03b} ' )
1 2 3 4 5 6 7 8 0的二进制是:000 1的二进制是:001 2的二进制是:010 3的二进制是:011 4的二进制是:100 5的二进制是:101 6的二进制是:110 7的二进制是:111
在二进制表示中,较高比特位的交替频率低于较低比特位,与下面的热图所示相似,只是位置编码通过使用三角函数[在编码维度上降低频率 ]。由于输出是浮点数,因此此类连续表示比二进制表示法更节省空间。
1 2 3 P = P[0 , :, :].unsqueeze(0 ).unsqueeze(0 ) d2l.show_heatmaps(P, xlabel='Column (encoding dimension)' , ylabel='Row (position)' , figsize=(3.5 , 4 ), cmap='Blues' )
相对位置信息
除了捕获绝对位置信息之外,上述的位置编码还允许模型学习得到输入序列中相对位置信息。这是因为对于任何确定的位置偏移 ,位置 处的位置编码可以线性投影位置 处的位置编码来表示。
这种投影的数学解释是,令 ,对于任何确定的位置偏移 ,位置编码公式中的任何一对 都可以线性投影到 :
投影矩阵不依赖于任何位置的索引 。
新增位置emb向量,每个向量值遵循模型学习的指定模式(词向量被投影到
Q/K/V
向量中以及在点积注意力期间,将这些值添加到嵌入中可以提供嵌入向量之间有意义的距离?):
如果假设位置向量有4维,实际的位置向量将如下所示:
二、Multi-Head Attention
Multi-Head
Attention是利用多个查询,来平行地计算从输入信息中选取多个信息。每个注意力关注输入信息的不同部分,然后再进行拼接。
多头注意力的机制进一步细化了注意力层,通过以下两种方式提高了注意力层的性能:
扩展了模型专注于不同位置的能力。当多头注意力模型和自注意力机制集合的时候,比如我们翻译“动物没有过马路,因为它太累了”这样的句子的时候,我们想知道“它”指的是哪个词,如果能分析出来代表动物,就很有用。
为注意力层提供了多个“表示子空间”。对于多头注意力,我们不仅有一个,而且还有多组Query/Key/Value权重矩阵,这些权重矩阵集合中的每一个都是随机初始化的。然后,在训练之后,每组用于将输入Embedding投影到不同的表示子空间中。多个head学习到的Attention侧重点可能略有不同,这样给了模型更大的容量。
使用不同的Q/K/V矩阵与权重矩阵进行多次self-attention计算,最终会得到多个不同的 矩阵
用数学语言将这个模型形式化地描述出来 。给定查询 、键 和值 ,每个注意力头 ( )的计算方法为:
其中,可学习的参数包括 、 和 ,以及代表注意力汇聚的函数 。 可以是加性注意力和缩放点积注意力。多头注意力的输出需要经过另一个线性转换,它对应着 个头连结后的结果,因此其可学习参数是 :
基于这种设计,每个头都可能会关注输入的不同部分,可以表示比简单加权平均值更复杂的函数。
将上述过程全部放在一张图中:
代码实现
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 class MultiHeadAttention (nn.Module): """多头注意力""" def __init__ (self, key_size, query_size, value_size, num_hiddens, num_heads, dropout, bias=False , **kwargs ): super (MultiHeadAttention, self ).__init__(**kwargs) self .num_heads = num_heads self .attention = DotProductAttention(dropout) self .W_q = nn.Linear(query_size, num_hiddens, bias=bias) self .W_k = nn.Linear(key_size, num_hiddens, bias=bias) self .W_v = nn.Linear(value_size, num_hiddens, bias=bias) self .W_o = nn.Linear(num_hiddens, num_hiddens, bias=bias) def forward (self, queries, keys, values, valid_lens ): queries = transpose_qkv(self .W_q(queries), self .num_heads) keys = transpose_qkv(self .W_k(keys), self .num_heads) values = transpose_qkv(self .W_v(values), self .num_heads) if valid_lens is not None : valid_lens = torch.repeat_interleave( valid_lens, repeats=self .num_heads, dim=0 ) output = self .attention(queries, keys, values, valid_lens) output_concat = transpose_output(output, self .num_heads) return self .W_o(output_concat)
为了能够[使多个头并行计算 ],上面的MultiHeadAttention类将使用下面定义的两个转置函数。具体来说,transpose_output函数反转了transpose_qkv函数的操作。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 def transpose_qkv (X, num_heads ): """为了多注意力头的并行计算而变换形状""" X = X.reshape(X.shape[0 ], X.shape[1 ], num_heads, -1 ) X = X.permute(0 , 2 , 1 , 3 ) return X.reshape(-1 , X.shape[2 ], X.shape[3 ])def transpose_output (X, num_heads ): """逆转transpose_qkv函数的操作""" X = X.reshape(-1 , num_heads, X.shape[1 ], X.shape[2 ]) X = X.permute(0 , 2 , 1 , 3 ) return X.reshape(X.shape[0 ], X.shape[1 ], -1 )
Transformer作为编码器-解码器架构的一个实例,其整体架构图如下。正如所见到的,Transformer是由编码器和解码器组成的。Transformer的编码器和解码器是基于自注意力的模块叠加而成的,源(输入)序列和目标(输出)序列的嵌入 (embedding)表示将加上位置编码 (positional
encoding),再分别输入到编码器和解码器中。
Transformer的编码器是由多个相同的层叠加而成的,每个层都有两个子层(子层表示为 )。第一个子层是多头自注意力 (multi-head
self-attention)汇聚;第二个子层是基于位置的前馈网络 (positionwise
feed-forward
network)。具体来说,在计算编码器的自注意力时,查询、键和值都来自前一个编码器层的输出。受残差网络 的启发,每个子层都采用了残差连接 (residual
connection)。在Transformer中,对于序列中任何位置的任何输入 ,都要求满足 ,以便残差连接满足 。在残差连接的加法计算之后,紧接着应用层规范化 (layer
normalization)。因此,输入序列对应的每个位置,Transformer编码器都将输出一个 维表示向量。
Transformer解码器也是由多个相同的层叠加而成的,并且层中使用了残差连接和层规范化。除了编码器中描述的两个子层之外,解码器还在这两个子层之间插入了第三个子层,称为编码器-解码器注意力 (encoder-decoder
attention)层。在编码器-解码器注意力中,查询来自前一个解码器层的输出,而键和值来自整个编码器的输出。在解码器自注意力中,查询、键和值都来自上一个解码器层的输出。但是,解码器中的每个位置只能考虑该位置之前的所有位置。这种掩蔽 (masked)注意力保留了自回归 (auto-regressive)属性,确保预测仅依赖于已生成的输出词元。
在此之前已经描述并实现了基于缩放点积多头注意力。接下来将实现Transformer模型的剩余部分。
3.1 基于位置的前馈网络
基于位置的前馈网络对序列中的所有位置的表示进行变换时使用的是同一个多层感知机(MLP),这就是称前馈网络是基于位置的 (positionwise)的原因。在下面的实现中,输入X的形状(批量大小,时间步数或序列长度,隐单元数或特征维度)将被一个两层的感知机转换成形状为(批量大小,时间步数,ffn_num_outputs)的输出张量。
1 2 3 4 5 6 7 8 9 10 11 class PositionWiseFFN (nn.Module): """基于位置的前馈网络""" def __init__ (self, ffn_num_input, ffn_num_hiddens, ffn_num_outputs, **kwargs ): super (PositionWiseFFN, self ).__init__(**kwargs) self .dense1 = nn.Linear(ffn_num_input, ffn_num_hiddens) self .relu = nn.ReLU() self .dense2 = nn.Linear(ffn_num_hiddens, ffn_num_outputs) def forward (self, X ): return self .dense2(self .relu(self .dense1(X)))
3.2 残差连接和层规范化
Transformer中的加法和规范化 (add&norm)组件。是由残差连接和紧随其后的层规范化组成的。两者都是构建有效的深度架构的关键。
在残差网络 中解释了在一个小批量的样本内基于批量规范化对数据进行重新中心化和重新缩放的调整。层规范化和批量规范化的目标相同,但层规范化是基于特征维度进行规范化。尽管批量规范化在计算机视觉中被广泛应用,但在自然语言处理任务中(输入通常是变长序列)批量规范化通常不如层规范化的效果好。以下代码[对比不同维度的层规范化和批量规范化的效果 ]。
1 2 3 4 5 6 7 8 9 class AddNorm (nn.Module): """残差连接后进行层规范化""" def __init__ (self, normalized_shape, dropout, **kwargs ): super (AddNorm, self ).__init__(**kwargs) self .dropout = nn.Dropout(dropout) self .ln = nn.LayerNorm(normalized_shape) def forward (self, X, Y ): return self .ln(self .dropout(Y) + X)
3.3 编码器
有了组成Transformer编码器的基础组件,现在可以先[实现编码器中的一个层 ]。下面的EncoderBlock类包含两个子层:多头自注意力和基于位置的前馈网络,这两个子层都使用了残差连接和紧随的层规范化。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 class EncoderBlock (nn.Module): """Transformer编码器块""" def __init__ (self, key_size, query_size, value_size, num_hiddens, norm_shape, ffn_num_input, ffn_num_hiddens, num_heads, dropout, use_bias=False , **kwargs ): super (EncoderBlock, self ).__init__(**kwargs) self .attention = MultiHeadAttention( key_size, query_size, value_size, num_hiddens, num_heads, dropout, use_bias) self .addnorm1 = AddNorm(norm_shape, dropout) self .ffn = PositionWiseFFN( ffn_num_input, ffn_num_hiddens, num_hiddens) self .addnorm2 = AddNorm(norm_shape, dropout) def forward (self, X, valid_lens ): Y = self .addnorm1(X, self .attention(X, X, X, valid_lens)) return self .addnorm2(Y, self .ffn(Y))
下面实现的Transformer编码器 的代码中,堆叠了num_layers个EncoderBlock类的实例。由于这里使用的是值范围在 和 之间的固定位置编码,因此通过学习得到的输入的嵌入表示的值需要先乘以嵌入维度的平方根进行重新缩放,然后再与位置编码相加。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 class TransformerEncoder (Encoder ): """Transformer编码器""" def __init__ (self, vocab_size, key_size, query_size, value_size, num_hiddens, norm_shape, ffn_num_input, ffn_num_hiddens, num_heads, num_layers, dropout, use_bias=False , **kwargs ): super (TransformerEncoder, self ).__init__(**kwargs) self .num_hiddens = num_hiddens self .embedding = nn.Embedding(vocab_size, num_hiddens) self .pos_encoding = PositionalEncoding(num_hiddens, dropout) self .blks = nn.Sequential() for i in range (num_layers): self .blks.add_module("block" +str (i), EncoderBlock(key_size, query_size, value_size, num_hiddens, norm_shape, ffn_num_input, ffn_num_hiddens, num_heads, dropout, use_bias)) def forward (self, X, valid_lens, *args ): X = self .pos_encoding(self .embedding(X) * math.sqrt(self .num_hiddens)) self .attention_weights = [None ] * len (self .blks) for i, blk in enumerate (self .blks): X = blk(X, valid_lens) self .attention_weights[i] = blk.attention.attention.attention_weights return X
3.4 解码器
Transformer解码器也是由多个相同的层组成 。在DecoderBlock类中实现的每个层包含了三个子层:解码器自注意力、“编码器-解码器”注意力和基于位置的前馈网络。这些子层也都被残差连接和紧随的层规范化围绕。
在掩蔽多头解码器自注意力层(第一个子层)中,Q、K和V都来自上一个解码器层的输出。关于序列到序列模型 (sequence-to-sequence
model),在训练阶段,其输出序列的所有位置(时间步)的词元都是已知的;然而,在预测阶段,其输出序列的词元是逐个生成的。因此,在任何解码器时间步中,只有生成的词元才能用于解码器的自注意力计算中。为了在解码器中保留自回归的属性,其掩蔽自注意力设定了参数dec_valid_lens,以便任何查询都只会与解码器中所有已经生成词元的位置(即直到该查询位置为止)进行注意力计算。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 class DecoderBlock (nn.Module): """解码器中第i个块""" def __init__ (self, key_size, query_size, value_size, num_hiddens, norm_shape, ffn_num_input, ffn_num_hiddens, num_heads, dropout, i, **kwargs ): super (DecoderBlock, self ).__init__(**kwargs) self .i = i self .attention1 = MultiHeadAttention( key_size, query_size, value_size, num_hiddens, num_heads, dropout) self .addnorm1 = AddNorm(norm_shape, dropout) self .attention2 = MultiHeadAttention( key_size, query_size, value_size, num_hiddens, num_heads, dropout) self .addnorm2 = AddNorm(norm_shape, dropout) self .ffn = PositionWiseFFN(ffn_num_input, ffn_num_hiddens, num_hiddens) self .addnorm3 = AddNorm(norm_shape, dropout) def forward (self, X, state ): enc_outputs, enc_valid_lens = state[0 ], state[1 ] if state[2 ][self .i] is None : key_values = X else : key_values = torch.cat((state[2 ][self .i], X), axis=1 ) state[2 ][self .i] = key_values if self .training: batch_size, num_steps, _ = X.shape dec_valid_lens = torch.arange( 1 , num_steps + 1 , device=X.device).repeat(batch_size, 1 ) else : dec_valid_lens = None X2 = self .attention1(X, key_values, key_values, dec_valid_lens) Y = self .addnorm1(X, X2) Y2 = self .attention2(Y, enc_outputs, enc_outputs, enc_valid_lens) Z = self .addnorm2(Y, Y2) return self .addnorm3(Z, self .ffn(Z)), state
现在构建了由num_layers个DecoderBlock实例组成的完整的Transformer解码器 。最后,通过一个全连接层计算所有vocab_size个可能的输出词元的预测值。解码器的自注意力权重和编码器解码器注意力权重都被存储下来,方便日后可视化的需要。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 class TransformerDecoder (AttentionDecoder ): def __init__ (self, vocab_size, key_size, query_size, value_size, num_hiddens, norm_shape, ffn_num_input, ffn_num_hiddens, num_heads, num_layers, dropout, **kwargs ): super (TransformerDecoder, self ).__init__(**kwargs) self .num_hiddens = num_hiddens self .num_layers = num_layers self .embedding = nn.Embedding(vocab_size, num_hiddens) self .pos_encoding = PositionalEncoding(num_hiddens, dropout) self .blks = nn.Sequential() for i in range (num_layers): self .blks.add_module("block" +str (i), DecoderBlock(key_size, query_size, value_size, num_hiddens, norm_shape, ffn_num_input, ffn_num_hiddens, num_heads, dropout, i)) self .dense = nn.Linear(num_hiddens, vocab_size) def init_state (self, enc_outputs, enc_valid_lens, *args ): return [enc_outputs, enc_valid_lens, [None ] * self .num_layers] def forward (self, X, state ): X = self .pos_encoding(self .embedding(X) * math.sqrt(self .num_hiddens)) self ._attention_weights = [[None ] * len (self .blks) for _ in range (2 )] for i, blk in enumerate (self .blks): X, state = blk(X, state) self ._attention_weights[0 ][ i] = blk.attention1.attention.attention_weights self ._attention_weights[1 ][ i] = blk.attention2.attention.attention_weights return self .dense(X), state @property def attention_weights (self ): return self ._attention_weights
3.5 训练
指定Transformer的编码器和解码器都是2层,都使用4头注意力。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 num_hiddens, num_layers, dropout, batch_size, num_steps = 32 , 2 , 0.1 , 64 , 10 lr, num_epochs, device = 0.005 , 200 , try_gpu() ffn_num_input, ffn_num_hiddens, num_heads = 32 , 64 , 4 key_size, query_size, value_size = 32 , 32 , 32 norm_shape = [32 ] train_iter, src_vocab, tgt_vocab = load_data_nmt(batch_size, num_steps) encoder = TransformerEncoder( len (src_vocab), key_size, query_size, value_size, num_hiddens, norm_shape, ffn_num_input, ffn_num_hiddens, num_heads, num_layers, dropout) decoder = TransformerDecoder( len (tgt_vocab), key_size, query_size, value_size, num_hiddens, norm_shape, ffn_num_input, ffn_num_hiddens, num_heads, num_layers, dropout) net = EncoderDecoder(encoder, decoder) train_seq2seq(net, train_iter, lr, num_epochs, tgt_vocab, device)
1 loss 0.032, 28873.6 tokens/sec on cuda:0
预测
1 2 3 4 5 6 7 engs = ['go .' , "i lost ." , 'he\'s calm .' , 'i\'m home .' ] fras = ['va !' , 'j\'ai perdu .' , 'il est calme .' , 'je suis chez moi .' ]for eng, fra in zip (engs, fras): translation, dec_attention_weight_seq = d2l.predict_seq2seq( net, eng, src_vocab, tgt_vocab, num_steps, device, True ) print (f'{eng} => {translation} , ' , f'bleu {d2l.bleu(translation, fra, k=2 ):.3 f} ' )
1 2 3 4 go . => va !, bleu 1.000 i lost . => j'ai perdu ., bleu 1.000 he's calm . => il est calme ., bleu 1.000 i'm home . => je suis chez moi ., bleu 1.000
编码器自注意力权重可视化
在编码器的自注意力中,Q和V都来自相同的输入序列。因为填充词元是不携带信息的,因此通过指定输入序列的有效长度可以避免查询与使用填充词元的位置计算注意力。接下来,将逐行呈现两层多头注意力的权重。每个注意力头都根据Q、K和V的不同的表示子空间来表示不同的注意力。
1 2 3 4 5 6 enc_attention_weights = torch.cat(net.encoder.attention_weights, 0 ).reshape((num_layers, num_heads, -1 , num_steps)) d2l.show_heatmaps( enc_attention_weights.cpu(), xlabel='Key positions' , ylabel='Query positions' , titles=['Head %d' % i for i in range (1 , 5 )], figsize=(7 , 3.5 ))
解码器的自注意力权重可视化
为了可视化解码器的自注意力权重和“编码器-解码器”的注意力权重,我们需要完成更多的数据操作工作。 用零填充被掩蔽住的注意力权重。解码器的自注意力权重和“编码器-解码器”的注意力权重都有相同的查询:即以序列开始词元 (beginning-of-sequence,BOS)打头,再与后续输出的词元共同组成序列。
由于解码器自注意力的自回归属性,查询不会对当前位置之后的“K-V”对进行注意力计算。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 import pandas as pd dec_attention_weights_2d = [head[0 ].tolist() for step in dec_attention_weight_seq for attn in step for blk in attn for head in blk] dec_attention_weights_filled = torch.tensor( pd.DataFrame(dec_attention_weights_2d).fillna(0.0 ).values) dec_attention_weights = dec_attention_weights_filled.reshape((-1 , 2 , num_layers, num_heads, num_steps)) dec_self_attention_weights, dec_inter_attention_weights = \ dec_attention_weights.permute(1 , 2 , 3 , 0 , 4 ) d2l.show_heatmaps( dec_self_attention_weights[:, :, :, :len (translation.split()) + 1 ], xlabel='Key positions' , ylabel='Query positions' , titles=['Head %d' % i for i in range (1 , 5 )], figsize=(7 , 3.5 ))
与编码器的自注意力的情况类似,通过指定输入序列的有效长度,输出序列的查询不会与输入序列中填充位置的词元进行注意力计算 。
1 2 3 4 d2l.show_heatmaps( dec_inter_attention_weights, xlabel='Key positions' , ylabel='Query positions' , titles=['Head %d' % i for i in range (1 , 5 )], figsize=(7 , 3.5 ))
Transformer是编码器-解码器架构的一个实践,尽管在实际情况中编码器或解码器可以单独使用。
在Transformer中,多头自注意力用于表示输入序列和输出序列,不过解码器必须通过掩蔽机制来保留自回归属性。
Transformer中的残差连接和层规范化是训练非常深度模型的重要工具。
Transformer模型中基于位置的前馈网络使用同一个多层感知机,作用是对所有序列位置的表示进行转换。
参考
The
Illustrated Transformer
The
Illustrated Transformer【译】
Self-Attention
详解Self-Attention和Multi-Head
Attention
李沐-动手学深度学习第二版
一步一步,理解Self-Attention
Attention
Is All You Need
Transformer
李宏毅深度學習
Attention机制详解(二)——Self-Attention与Transformer
万字长文解读Transformer模型和Attention机制
小白都能看懂的超详细Attention机制详解
Transformer--Attention
is All You Need (推荐--非常详细)
Multi-Head
Self-Attention in NLP
Illustrated:
Self-Attention