Skip to content
小狍子皮皮奇
搜索文档
K
Main Navigation
首页
人工智能
1.导论
2.搜索问题
3.对抗性搜索(博弈)
4.约束满足问题
5.知识推理
6.规划问题
7.机器学习
8.神经网络
9.岗位
10.商业模式
AI实验室
1.八皇后问题
2.手写数字识别
3.MCP协议
4.RAG系统
5.从零构建大模型
书籍推荐
《埃隆·马斯克传》
《思考快与慢》
《史蒂夫·乔布斯传》
《穷查理宝典》
《枪炮、病菌与钢铁》
《亲密关系》
《我在美国当精神科医生》
《巴拉吉预言》
熵宇纪元
更新日志
新
外观
Menu
返回顶部
此页内容
首页
AI实验室
5.从零构建大模型
数据准备与采样
数据准备与采样
约 364 字
大约 1 分钟
数据处理流程图
核心技术
文本预处理
清除HTML标签和特殊字符
统一文本格式和编码
处理缩写和数字标准化
分词与词表
BPE算法进行子词切分
构建3万-50万规模词表
处理未登录词(OOV)
词元嵌入
词元ID到向量的映射
可训练的嵌入矩阵
捕获语义关联关系
位置编码
绝对位置:为每个位置分配唯一标识
相对位置:建模词元间距离关系
旋转编码:保持相对位置的数学性质
更新日志
2025/8/19 16:09
查看所有更新日志
245db
-
feat: AI实验室文档结构优化与代码整理 v1.0.24
于
2025/8/19
bd1d0
-
迁移目录
于
2025/8/18
dc6b2
-
update
于
2025/5/23
版权所有
版权归属:
NateHHX
许可证:
署名 4.0 国际 (CC-BY-4.0)
0%