-
整体架构:
Transformer 由编码器和解码器组成,两者都包含多个相同的层堆叠而成。编码器将输入序列转换为连续表示,解码器则根据这个表示生成输出序列。
-
输入处理:
- 输入序列首先被转换为词嵌入向量。
- 为了保留位置信息,加入了位置编码 (Positional Encoding)。
-
编码器:
每个编码器层包含两个子层:
- a) 多头自注意力层 (Multi-Head Self-Attention)
- b) 位置前馈网络 (Position-wise Feed-Forward Network)
- 每个子层后都有残差连接和层归一化。
-
多头注意力机制:
- 将输入分成多个“头”,每个头独立计算注意力。
- 每个头计算查询 (Query)、键 (Key) 和值 (Value) 的线性变换。
- 使用缩放点积注意力计算权重。
- 最后将所有头的输出连接并通过线性变换得到最终输出。
-
位置前馈网络:
- 对每个位置独立应用相同的全连接层。
-
解码器:
解码器层类似编码器,但有以下不同:
- 增加了一个编码器-解码器注意力层,用于关注输入序列。
- 在自注意力层中使用掩码,确保预测只依赖于已生成的输出。
-
输出生成:
- 最后一个解码器层的输出经过线性变换和 softmax,生成下一个词的概率分布。
-
训练:
- 使用教师强制 (teacher forcing) 方法训练。
- 采用标签平滑 (label smoothing) 技术提高泛化能力。
- 使用 Adam 优化器,并采用特殊的学习率调度策略。
-
推理:
- 使用束搜索 (beam search) 生成最终输出序列。
-
优势:
- 可并行计算,训练速度快。
- 能有效处理长距离依赖。
- 注意力机制提供了更好的可解释性。
Transformer 的核心创新在于完全依赖注意力机制来捕捉输入和输出的全局依赖关系,避免了循环神经网络的顺序计算约束,同时也不需要卷积神经网络来捕捉局部特征。这种设计使得模型能更有效地处理长序列,并且具有更好的并行性。
【注意】:本文通过AI生成
windows的cmd命令行,整理成可执…