深入解析Transformer模型实现：基于nlp-tutorial项目的代码剖析

2025-07-06 02:13:04作者：宣聪麟

前言

Transformer模型自2017年由Vaswani等人提出以来，已成为自然语言处理领域的基石架构。本文将通过一个简洁而完整的实现案例，深入解析Transformer的核心组件和工作原理。这个实现来自一个专注于NLP教程的项目，它以教学为目的，清晰地展现了Transformer的关键技术细节。

Transformer模型概述

Transformer是一种完全基于注意力机制的序列转换模型，摒弃了传统的循环和卷积结构。其主要特点包括：

自注意力机制(Self-Attention)
多头注意力(Multi-Head Attention)
位置编码(Positional Encoding)
残差连接和层归一化
前馈神经网络

核心组件实现解析

1. 位置编码

位置编码是Transformer的关键创新之一，它通过正弦和余弦函数为序列中的每个位置生成独特的编码：

def get_sinusoid_encoding_table(n_position, d_model):
    def cal_angle(position, hid_idx):
        return position / np.power(10000, 2 * (hid_idx // 2) / d_model)
    def get_posi_angle_vec(position):
        return [cal_angle(position, hid_j) for hid_j in range(d_model)]

    sinusoid_table = np.array([get_posi_angle_vec(pos_i) for pos_i in range(n_position)])
    sinusoid_table[:, 0::2] = np.sin(sinusoid_table[:, 0::2])  # 偶数位置使用sin
    sinusoid_table[:, 1::2] = np.cos(sinusoid_table[:, 1::2])  # 奇数位置使用cos
    return torch.FloatTensor(sinusoid_table)

这种编码方式使模型能够捕获序列中单词的相对位置信息，同时可以处理比训练时更长的序列。

2. 注意力掩码

Transformer中使用了两种重要的注意力掩码：

def get_attn_pad_mask(seq_q, seq_k):
    # 创建填充(PAD)标记的掩码
    pad_attn_mask = seq_k.data.eq(0).unsqueeze(1)
    return pad_attn_mask.expand(batch_size, len_q, len_k)

def get_attn_subsequent_mask(seq):
    # 创建上三角矩阵，防止解码器看到未来信息
    subsequent_mask = np.triu(np.ones(attn_shape), k=1)
    return torch.from_numpy(subsequent_mask).byte()

填充掩码：防止注意力机制处理填充标记
后续掩码：确保解码器只能关注当前位置及之前的输出

3. 缩放点积注意力

这是Transformer中最核心的运算：

class ScaledDotProductAttention(nn.Module):
    def forward(self, Q, K, V, attn_mask):
        scores = torch.matmul(Q, K.transpose(-1, -2)) / np.sqrt(d_k)
        scores.masked_fill_(attn_mask, -1e9)  # 应用掩码
        attn = nn.Softmax(dim=-1)(scores)
        context = torch.matmul(attn, V)
        return context, attn

关键点：

除以√d_k防止梯度消失
使用softmax计算注意力权重
最终输出是值的加权和

4. 多头注意力机制

多头注意力并行运行多个注意力头，增强模型捕获不同子空间信息的能力：

class MultiHeadAttention(nn.Module):
    def __init__(self):
        self.W_Q = nn.Linear(d_model, d_k * n_heads)  # 查询变换
        self.W_K = nn.Linear(d_model, d_k * n_heads)  # 键变换
        self.W_V = nn.Linear(d_model, d_v * n_heads)  # 值变换
        self.linear = nn.Linear(n_heads * d_v, d_model)  # 输出投影
        self.layer_norm = nn.LayerNorm(d_model)  # 层归一化

    def forward(self, Q, K, V, attn_mask):
        residual = Q  # 残差连接
        # 分割为多头
        q_s = self.W_Q(Q).view(batch_size, -1, n_heads, d_k).transpose(1,2)
        # ...类似处理K和V...
        
        # 计算注意力
        context, attn = ScaledDotProductAttention()(q_s, k_s, v_s, attn_mask)
        # 合并多头输出
        context = context.transpose(1, 2).contiguous().view(batch_size, -1, n_heads * d_v)
        output = self.linear(context)
        return self.layer_norm(output + residual), attn

5. 前馈网络

每个编码器和解码器层都包含一个位置式前馈网络：

class PoswiseFeedForwardNet(nn.Module):
    def __init__(self):
        self.conv1 = nn.Conv1d(d_model, d_ff, kernel_size=1)  # 扩展维度
        self.conv2 = nn.Conv1d(d_ff, d_model, kernel_size=1)  # 压缩维度
        self.layer_norm = nn.LayerNorm(d_model)

    def forward(self, inputs):
        residual = inputs
        output = nn.ReLU()(self.conv1(inputs.transpose(1, 2)))
        output = self.conv2(output).transpose(1, 2)
        return self.layer_norm(output + residual)

完整Transformer架构

编码器实现

class Encoder(nn.Module):
    def __init__(self):
        self.src_emb = nn.Embedding(src_vocab_size, d_model)  # 词嵌入
        self.pos_emb = nn.Embedding.from_pretrained(
            get_sinusoid_encoding_table(src_len+1, d_model), freeze=True)  # 位置编码
        self.layers = nn.ModuleList([EncoderLayer() for _ in range(n_layers)])

    def forward(self, enc_inputs):
        enc_outputs = self.src_emb(enc_inputs) + self.pos_emb(...)  # 词嵌入+位置编码
        enc_self_attn_mask = get_attn_pad_mask(enc_inputs, enc_inputs)
        for layer in self.layers:
            enc_outputs, enc_self_attn = layer(enc_outputs, enc_self_attn_mask)
        return enc_outputs, enc_self_attns

解码器实现

class Decoder(nn.Module):
    def __init__(self):
        self.tgt_emb = nn.Embedding(tgt_vocab_size, d_model)
        self.pos_emb = nn.Embedding.from_pretrained(
            get_sinusoid_encoding_table(tgt_len+1, d_model), freeze=True)
        self.layers = nn.ModuleList([DecoderLayer() for _ in range(n_layers)])

    def forward(self, dec_inputs, enc_inputs, enc_outputs):
        dec_outputs = self.tgt_emb(dec_inputs) + self.pos_emb(...)
        # 创建两种掩码
        dec_self_attn_pad_mask = get_attn_pad_mask(dec_inputs, dec_inputs)
        dec_self_attn_subsequent_mask = get_attn_subsequent_mask(dec_inputs)
        dec_self_attn_mask = torch.gt((dec_self_attn_pad_mask + dec_self_attn_subsequent_mask), 0)
        
        dec_enc_attn_mask = get_attn_pad_mask(dec_inputs, enc_inputs)
        
        for layer in self.layers:
            dec_outputs, dec_self_attn, dec_enc_attn = layer(
                dec_outputs, enc_outputs, dec_self_attn_mask, dec_enc_attn_mask)
        return dec_outputs, dec_self_attns, dec_enc_attns

训练过程

示例中展示了一个简单的训练循环：

model = Transformer()
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters(), lr=0.001)

for epoch in range(20):
    optimizer.zero_grad()
    outputs, enc_self_attns, dec_self_attns, dec_enc_attns = model(enc_inputs, dec_inputs)
    loss = criterion(outputs, target_batch.contiguous().view(-1))
    loss.backward()
    optimizer.step()

可视化注意力

实现中包含了注意力权重的可视化功能：

def showgraph(attn):
    attn = attn[-1].squeeze(0)[0]
    attn = attn.squeeze(0).data.numpy()
    fig = plt.figure(figsize=(n_heads, n_heads))
    ax = fig.add_subplot(1, 1, 1)
    ax.matshow(attn, cmap='viridis')
    ax.set_xticklabels(['']+sentences[0].split(), rotation=90)
    ax.set_yticklabels(['']+sentences[2].split())
    plt.show()

总结

通过这个简洁的实现，我们可以清晰地看到Transformer模型的几个关键特点：

完全基于注意力机制，没有循环或卷积操作
使用多头注意力并行处理信息
位置编码代替传统的位置信息
残差连接和层归一化促进深层网络训练
掩码机制实现序列处理的自回归特性

这个实现虽然精简，但包含了Transformer的所有核心组件，是理解这一重要模型的绝佳起点。通过研究代码，我们可以更深入地理解Transformer的工作原理，为进一步的模型改进和应用开发奠定基础。

深入解析Transformer模型实现：基于nlp-tutorial项目的代码剖析

前言

Transformer模型概述

核心组件实现解析

1. 位置编码

2. 注意力掩码

3. 缩放点积注意力

4. 多头注意力机制

5. 前馈网络

完整Transformer架构

编码器实现

解码器实现

训练过程

可视化注意力

总结

热门内容推荐

最新内容推荐

深入解析Transformer模型实现：基于nlp-tutorial项目的代码剖析

前言

Transformer模型概述

核心组件实现解析

1. 位置编码

2. 注意力掩码

3. 缩放点积注意力

4. 多头注意力机制

5. 前馈网络

完整Transformer架构

编码器实现

解码器实现

训练过程

可视化注意力

总结

相关内容推荐

热门内容推荐

最新内容推荐