Merge branch 'datawhalechina:main' into main

修复一个理解上的歧义点。针对相对位置编码和绝对位置的编码的理解，此处会出现歧义。
2025-11-28 12:10:55 +08:00 · 2025-11-28 12:09:24 +08:00
1 changed files with 1 additions and 1 deletions
--- a/docs/chapter3/第三章预训练语言模型.md
+++ b/docs/chapter3/第三章预训练语言模型.md
@@ -78,7 +78,7 @@ BERT 的 注意力机制和 Transformer 中 Encoder 的 自注意力机制几乎
  <p>图3.6 BERT 注意力机制结构</p>
 </div>

-如图，BERT 的注意力计算过程和 Transformer 的唯一差异在于，在完成注意力分数的计算之后，先通过 Position Embedding 层来融入相对位置信息。这里的 Position Embedding 层，其实就是一层线性矩阵。通过可训练的参数来拟合相对位置，相对而言比 Transformer 使用的绝对位置编码 Sinusoidal 能够拟合更丰富的相对位置信息，但是，这样也增加了不少模型参数，同时完全无法处理超过模型训练长度的输入（例如，对 BERT 而言能处理的最大上下文长度是 512 个 token）。
+如图，BERT 的注意力计算过程和 Transformer 的唯一差异在于，在完成注意力分数的计算之后，先通过 Position Embedding 层来融入相对位置信息。这里的 Position Embedding 层，其实就是一层线性矩阵。通过可训练的参数来拟合相对位置，相对而言比 Transformer 使用的绝对位置编码 Sinusoidal 能够拟合更丰富的相对位置信息，但是，这样也增加了不少模型参数，同时完全无法处理超过模型训练长度的输入（例如，对 BERT 而言能处理的最大上下文长度是 512 个 token。Sinusoidal和Embedding都是绝对位置编码，这是只是加了部分偏置，都无法满足超过训练长度的输入，现在一般都用相对位置编码来解决超过最大训练长度的问题，如，RoPE）。

 注：原始 BERT（即论文提出）使用和 Transformer 一致的绝对位置编码，后续改进（包括 BERT 的各种变体）使用了上述相对位置编码，为帮助读者了解更全面的模型结构设计，此处选择了改进版 BERT。
Author	SHA1	Message	Date
Zhenyang Zhao	4a6bcac59b	Merge branch 'datawhalechina:main' into main	2025-11-28 12:10:55 +08:00
jackyzzy	4085f1fef3	修复一个理解上的歧义点。针对相对位置编码和绝对位置的编码的理解，此处会出现歧义。	2025-11-28 12:09:24 +08:00