数据准备与采样

约 364 字大约 1 分钟

数据处理流程图

核心技术

文本预处理

清除HTML标签和特殊字符
统一文本格式和编码
处理缩写和数字标准化

分词与词表

BPE算法进行子词切分
构建3万-50万规模词表
处理未登录词(OOV)

词元嵌入

词元ID到向量的映射
可训练的嵌入矩阵
捕获语义关联关系

位置编码

绝对位置：为每个位置分配唯一标识
相对位置：建模词元间距离关系
旋转编码：保持相对位置的数学性质

更新日志

2025/8/19 16:09

查看所有更新日志

245db-feat: AI实验室文档结构优化与代码整理 v1.0.24于 2025/8/19
bd1d0-迁移目录于 2025/8/18
dc6b2-update于 2025/5/23

版权所有

版权归属：NateHHX

许可证：署名 4.0 国际 (CC-BY-4.0)