大模型架构

约 292 字小于 1 分钟

Transformer架构流程图

核心组件

多头自注意力

并行计算多个注意力头
捕获不同类型的依赖关系
全局信息交互机制

前馈网络

两层线性变换
GELU激活函数
增强非线性表达能力

残差连接

缓解梯度消失问题
促进深层网络训练
保持信息流动

层归一化

稳定训练过程
加速模型收敛
提升训练稳定性

更新日志

2025/8/19 16:09

查看所有更新日志

245db-feat: AI实验室文档结构优化与代码整理 v1.0.24于 2025/8/19
bd1d0-迁移目录于 2025/8/18
1a489-update于 2025/6/20

版权所有

版权归属：NateHHX

许可证：署名 4.0 国际 (CC-BY-4.0)