外观
无监督学习
约 1144 字大约 4 分钟
2025-03-07
1. 什么是无监督学习?
无监督学习(Unsupervised Learning)是机器学习中无需依赖标注数据的范式,其核心目标是通过分析数据内在结构,自主发现隐藏的模式或关系。与监督学习不同,它不预先定义输出标签,而是通过数据分布特性完成特征提取、数据压缩或模式发现。典型任务包括聚类分析、降维和密度估计等。
2. 无监督学习与有监督学习的区别
维度 | 无监督学习 | 有监督学习 |
---|---|---|
数据需求 | 无需标注数据 | 依赖标注数据(输入-输出对) |
目标导向 | 探索数据内在结构(如聚类、降维) | 预测已知标签或数值(如分类、回归) |
任务类型 | 聚类、降维、异常检测 | 分类、回归、排序 |
评估方法 | 依赖内部指标(如轮廓系数) | 直接计算准确率、F1值等 |
应用场景 | 市场分析、基因分组 | 疾病诊断、股价预测 |
核心差异:监督学习通过显式映射预测结果,无监督学习通过自组织揭示规律。
3. 典型聚类算法及经典案例
聚类算法对比表
算法 | 核心原理 | 适用场景 |
---|---|---|
K-Means | 最小化簇内平方误差 | 大规模数据、凸数据集 |
DBSCAN | 基于密度识别任意形状簇 | 噪声数据、非凸分布 |
层次聚类 | 树状结构分层聚类 | 小规模数据、可视化需求 |
经典算法:K-Means
- 原理:通过迭代优化将数据划分为K个簇,目标是最小化簇内样本到质心的平方距离之和:
目标函数:mini=1∑kx∈Ci∑∥x−μi∥2
- 步骤:
- 随机初始化K个质心
- 分配样本到最近质心形成簇
- 重新计算质心(均值)
- 迭代直至质心稳定。
4. 典型密度估计算法及经典案例
密度估计算法对比表
算法 | 核心原理 | 适用场景 |
---|---|---|
核密度估计(KDE) | 非参数估计数据分布 | 连续数据、可视化分析 |
高斯混合模型(GMM) | 多高斯分布叠加拟合 | 复杂分布建模 |
经典算法:核密度估计(KDE)
- 原理:使用高斯核函数估计数据分布:
f^(x)=nh1i=1∑nK(hx−xi)
其中 $$ K(u) = \frac{1}{\sqrt{2\pi}} e{-u2/2} $$,$$ h $$ 为带宽参数,控制平滑程度。
5. 典型降维算法及经典案例
降维算法对比表
算法 | 核心原理 | 适用场景 |
---|---|---|
PCA | 正交变换保留最大方差方向 | 线性数据、特征去冗余 |
t-SNE | 保持局部结构可视化 | 高维数据可视化(如基因表达) |
UMAP | 基于流形理论优化全局结构 | 大规模高维数据 |
经典算法:主成分分析(PCA)
- 数学原理:
- 计算协方差矩阵 C=n1XTX
- 特征值分解获取主成分方向
- 投影到前k个最大方差方向:
Z=XW
6. 无标注有监督神经网络:自监督学习
- 核心思想:通过构造伪标签实现无监督训练,例如对比学习中的对比损失:
L=−log∑k=1Nexp(zi⋅zk/τ)exp(zi⋅zj/τ)
其中 zi,zj 为数据增强后的正样本对特征,τ 为温度系数。典型模型包括:- SimCLR:通过增强生成正负样本对
- BERT:掩码语言模型预测被遮蔽词。
7. 无监督学习在现实社会中的应用
商业智能
- 客户分群:电商用户消费行为聚类(K-Means优化广告投放策略)。
- 异常检测:信用卡交易欺诈识别(孤立森林算法)。
图像处理
- 医学影像分割:K-Means提取器官区域(提升诊断效率40%)。
- 特征压缩:自编码器降低工业图像存储需求。
生物医学
- 基因表达分析:t-SNE可视化癌细胞亚群分布。
- 病理检测:GMM模型识别组织切片异常细胞。
总结:无监督学习通过揭示数据本质规律,在数据挖掘、模式识别等领域展现独特价值。其技术演进正从传统统计方法向深度自监督学习融合,推动人工智能从“感知”向“认知”跃迁。
版权所有
版权归属:NateHHX