From 973ae3c8a5a0b28500bfb5d68156c32612dd7f20 Mon Sep 17 00:00:00 2001 From: Li Xu <105716746+UserXSX@users.noreply.github.com> Date: Wed, 25 Feb 2026 21:03:09 +0800 Subject: [PATCH] =?UTF-8?q?Update=20=E7=AC=AC=E4=BA=8C=E7=AB=A0=20Transfor?= =?UTF-8?q?mer=E6=9E=B6=E6=9E=84.md=20=E4=BF=AE=E6=AD=A32.3.2=20=E4=BD=8D?= =?UTF-8?q?=E7=BD=AE=E7=BC=96=E7=A0=81=E4=B8=AD=E5=AF=B9=E7=AC=A6=E5=8F=B7?= =?UTF-8?q?=20i=20=E5=AE=9A=E4=B9=89=E7=9A=84=E8=AF=B4=E6=98=8E=20(#140)?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- docs/chapter2/第二章 Transformer架构.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/docs/chapter2/第二章 Transformer架构.md b/docs/chapter2/第二章 Transformer架构.md index d472a2d..e3e28ec 100644 --- a/docs/chapter2/第二章 Transformer架构.md +++ b/docs/chapter2/第二章 Transformer架构.md @@ -611,7 +611,7 @@ PE(pos, 2i) = sin(pos/10000^{2i/d_{model}})\\ PE(pos, 2i+1) = cos(pos/10000^{2i/d_{model}}) $$ -​上式中,pos 为 token 在句子中的位置,2i 和 2i+1 则是指示了 token 是奇数位置还是偶数位置,从上式中我们可以看出对于奇数位置的 token 和偶数位置的 token,Transformer 采用了不同的函数进行编码。 +上式中,pos 为 token 在句子中的位置,2i 和 2i+1 则指示了位置编码向量的维度索引是奇数还是偶数,从上式中我们可以看出对于奇数维度和偶数维度,Transformer 采用了不同的函数进行编码。 我们以一个简单的例子来说明位置编码的计算过程:假如我们输入的是一个长度为 4 的句子"I like to code",我们可以得到下面的词向量矩阵 $\rm x$ ,其中每一行代表的就是一个词向量, $\rm x_0=[0.1,0.2,0.3,0.4]$ 对应的就是“I”的词向量,它的pos就是为0,以此类推,第二行代表的是“like”的词向量,它的pos就是1: