Update 第二章 Transformer架构.md 修正2.3.2 位置编码中对符号 i 定义的说明 (#140)
This commit was merged in pull request #140.
This commit is contained in:
@@ -611,7 +611,7 @@ PE(pos, 2i) = sin(pos/10000^{2i/d_{model}})\\
|
||||
PE(pos, 2i+1) = cos(pos/10000^{2i/d_{model}})
|
||||
$$
|
||||
|
||||
上式中,pos 为 token 在句子中的位置,2i 和 2i+1 则是指示了 token 是奇数位置还是偶数位置,从上式中我们可以看出对于奇数位置的 token 和偶数位置的 token,Transformer 采用了不同的函数进行编码。
|
||||
上式中,pos 为 token 在句子中的位置,2i 和 2i+1 则指示了位置编码向量的维度索引是奇数还是偶数,从上式中我们可以看出对于奇数维度和偶数维度,Transformer 采用了不同的函数进行编码。
|
||||
|
||||
我们以一个简单的例子来说明位置编码的计算过程:假如我们输入的是一个长度为 4 的句子"I like to code",我们可以得到下面的词向量矩阵 $\rm x$ ,其中每一行代表的就是一个词向量, $\rm x_0=[0.1,0.2,0.3,0.4]$ 对应的就是“I”的词向量,它的pos就是为0,以此类推,第二行代表的是“like”的词向量,它的pos就是1:
|
||||
|
||||
|
||||
Reference in New Issue
Block a user