Update 第二章 Transformer架构.md

2025-07-30 20:52:28 +08:00
parent 18d1f56840
commit d278182a90
1 changed files with 2 additions and 2 deletions
--- a/docs/chapter2/第二章
+++ b/docs/chapter2/第二章
@@ -478,7 +478,7 @@ class EncoderLayer(nn.Module):
        # Encoder 不需要掩码，传入 is_causal=False
        self.attention = MultiHeadAttention(args, is_causal=False)
        self.fnn_norm = LayerNorm(args.n_embd)
-        self.feed_forward = MLP(args)
+        self.feed_forward = MLP(args.dim, args.dim, args.dropout)

    def forward(self, x):
        # Layer Norm
@@ -528,7 +528,7 @@ class DecoderLayer(nn.Module):
        self.attention = MultiHeadAttention(args, is_causal=False)
        self.ffn_norm = LayerNorm(args.n_embd)
        # 第三个部分是 MLP
-        self.feed_forward = MLP(args)
+        self.feed_forward = MLP(args.dim, args.dim, args.dropout)

    def forward(self, x, enc_out):
        # Layer Norm