几何模型

约 1051 字大约 4 分钟

1. 几何模型的定义

几何模型是通过几何空间中的距离、角度或流形结构来建模数据关系的算法框架。

欧氏几何：基于欧氏空间（直角坐标系），采用欧氏距离（直线距离）度量数据关系，适用于线性可分问题（如SVM中的超平面划分）。
黎曼几何：研究流形上的几何结构，通过测地线（流形上的最短路径）度量距离，适用于非线性高维数据（如人脸图像流形）。

2. 线（Line）与面（Surface）

线：
- 在欧氏空间中定义为两点间的最短路径（直线）。
- 在机器学习中，线性模型（如线性回归）通过超平面（高维空间中的“线”）划分数据。
面：
- 二维流形（如球面、环面），局部类似于欧氏平面。
- 在降维任务中，数据可能分布在低维流形面上（如手写数字图像分布在10维流形上）。

3. 流形（Manifold）与降维

流形定义：
流形是局部近似欧氏空间的拓扑空间。例如，地球表面是二维流形，局部可视为平面。
流形假设：高维数据实际分布在低维流形上（如MNIST手写数字图像在约10维流形上）。
降维应用：
通过流形学习将高维数据映射到低维流形空间，保留局部或全局结构（如t-SNE可视化基因表达数据）。

4. 典型流形学习算法

算法	核心原理	应用场景
Isomap（等距映射）	保持测地线距离（流形上的最短路径）	人脸识别、3D姿态估计
LLE（局部线性嵌入）	保持局部线性重构关系	文本主题降维、图像聚类
拉普拉斯特征映射	基于图拉普拉斯矩阵保持局部邻域关系	社交网络分析、推荐系统
t-SNE	通过t分布保持高维与低维空间的概率相似性	高维数据可视化

5. Isomap（等距映射）原理

核心步骤：

构建邻接图：
- 选择k近邻或ε邻域（如k=10）连接数据点。
计算测地线距离：
- 通过Dijkstra算法求图中所有点对的最短路径（替代欧氏距离）。
多维缩放（MDS）：
- 将测地线距离矩阵映射到低维空间，保持距离不变性。

示例：
瑞士卷数据集（3D）通过Isomap映射到2D后，展开为平面结构，而PCA无法实现这一非线性展开。

6. LLE（局部线性嵌入）原理

核心步骤：

邻域选择：
- 对每个数据点选取k近邻（如k=12）。
局部线性重构：
- 用邻域点的线性组合表示中心点，最小化重构误差： $\min_W \sum_i \left\| x_i - \sum_j W_{ij}x_j \right\|^2$
低维嵌入：
- 保持权重矩阵不变，求解低维坐标 $$ y_i $$： $\min_Y \sum_i \left\| y_i - \sum_j W_{ij}y_j \right\|^2$

优势：对噪声鲁棒性强，适合文本词向量降维（如100维→3D可视化）。

7. 拉普拉斯特征映射（Laplacian Eigenmaps）

核心步骤：

构建相似图：
- 用高斯核计算邻域相似度（热核权重）： $W_{ij} = \exp\left(-\frac{\|x_i - x_j\|^2}{2\sigma^2}\right)$
图拉普拉斯矩阵：
- 定义拉普拉斯矩阵 $L = D - W$ ，其中 $D$ 为度矩阵（对角阵）。
特征分解：
- 求解广义特征问题 $Lv = \lambda Dv$ ，取最小非零特征值对应的特征向量作为低维嵌入。

应用：社交网络用户分群（保持用户互动关系的局部结构）。

8.总结

算法	核心思想	适用场景
Isomap	保持全局测地线距离	3D模型展开、地理数据
LLE	保持局部线性关系	文本/图像聚类
拉普拉斯特征映射	保持局部邻域相似性	图结构数据分群

几何模型通过流形学习突破线性降维局限，成为处理高维复杂数据的核心工具。其发展正与深度学习结合（如流形正则化），推动更高效的非线性表征学习。

更新日志

2025/8/18 00:31

查看所有更新日志

bd1d0-迁移目录于 2025/8/18
bbb4e-update于 2025/3/9

版权所有

版权归属：NateHHX

许可证：署名 4.0 国际 (CC-BY-4.0)

1.导论

2.搜索问题

经典搜索算法

无信息搜索

启发式搜索

超越经典搜索算法

3.对抗性搜索（博弈）

4.约束满足问题

5.知识推理

6.规划问题

7.机器学习

概况

任务

范式

模型

8.神经网络

9.思维链技术

几何模型

1. 几何模型的定义

2. 线（Line）与面（Surface）

3. 流形（Manifold）与降维

4. 典型流形学习算法

5. Isomap（等距映射）原理

核心步骤：

6. LLE（局部线性嵌入）原理

核心步骤：

7. 拉普拉斯特征映射（Laplacian Eigenmaps）

核心步骤：

8.总结

更新日志

版权所有