Skip to content
小狍子皮皮奇
搜索文档
K
Main Navigation
首页
人工智能
1.导论
2.搜索问题
3.对抗性搜索(博弈)
4.约束满足问题
5.知识推理
6.规划问题
7.机器学习
8.神经网络
9.岗位
10.商业模式
AI实验室
1.八皇后问题
2.手写数字识别
3.MCP协议
4.RAG系统
5.从零构建大模型
书籍推荐
《埃隆·马斯克传》
《思考快与慢》
《史蒂夫·乔布斯传》
《穷查理宝典》
《枪炮、病菌与钢铁》
《亲密关系》
《我在美国当精神科医生》
《巴拉吉预言》
熵宇纪元
更新日志
新
外观
Menu
返回顶部
此页内容
首页
AI实验室
5.从零构建大模型
大模型架构
大模型架构
约 292 字
小于 1 分钟
Transformer架构流程图
核心组件
多头自注意力
并行计算多个注意力头
捕获不同类型的依赖关系
全局信息交互机制
前馈网络
两层线性变换
GELU激活函数
增强非线性表达能力
残差连接
缓解梯度消失问题
促进深层网络训练
保持信息流动
层归一化
稳定训练过程
加速模型收敛
提升训练稳定性
更新日志
2025/8/19 16:09
查看所有更新日志
245db
-
feat: AI实验室文档结构优化与代码整理 v1.0.24
于
2025/8/19
bd1d0
-
迁移目录
于
2025/8/18
1a489
-
update
于
2025/6/20
版权所有
版权归属:
NateHHX
许可证:
署名 4.0 国际 (CC-BY-4.0)
0%