Compare commits
2 Commits
main
...
jackyzzy/m
| Author | SHA1 | Date | |
|---|---|---|---|
|
|
4a6bcac59b | ||
|
|
4085f1fef3 |
@@ -78,7 +78,7 @@ BERT 的 注意力机制和 Transformer 中 Encoder 的 自注意力机制几乎
|
||||
<p>图3.6 BERT 注意力机制结构</p>
|
||||
</div>
|
||||
|
||||
如图,BERT 的注意力计算过程和 Transformer 的唯一差异在于,在完成注意力分数的计算之后,先通过 Position Embedding 层来融入相对位置信息。这里的 Position Embedding 层,其实就是一层线性矩阵。通过可训练的参数来拟合相对位置,相对而言比 Transformer 使用的绝对位置编码 Sinusoidal 能够拟合更丰富的相对位置信息,但是,这样也增加了不少模型参数,同时完全无法处理超过模型训练长度的输入(例如,对 BERT 而言能处理的最大上下文长度是 512 个 token)。
|
||||
如图,BERT 的注意力计算过程和 Transformer 的唯一差异在于,在完成注意力分数的计算之后,先通过 Position Embedding 层来融入相对位置信息。这里的 Position Embedding 层,其实就是一层线性矩阵。通过可训练的参数来拟合相对位置,相对而言比 Transformer 使用的绝对位置编码 Sinusoidal 能够拟合更丰富的相对位置信息,但是,这样也增加了不少模型参数,同时完全无法处理超过模型训练长度的输入(例如,对 BERT 而言能处理的最大上下文长度是 512 个 token。Sinusoidal和Embedding都是绝对位置编码,这是只是加了部分偏置,都无法满足超过训练长度的输入,现在一般都用相对位置编码来解决超过最大训练长度的问题,如,RoPE)。
|
||||
|
||||
注:原始 BERT(即论文提出)使用和 Transformer 一致的绝对位置编码,后续改进(包括 BERT 的各种变体)使用了上述相对位置编码,为帮助读者了解更全面的模型结构设计,此处选择了改进版 BERT。
|
||||
|
||||
|
||||
Reference in New Issue
Block a user