8.3.3 Transformer模型的训练