外观
机器学习范式
约 850 字大约 3 分钟
2025-03-07
一、监督学习(Supervised Learning)
1. 核心定义与特点
- 数据特征:基于带有明确标签的数据集(特征-标签对)进行训练,通过输入输出对的映射关系构建预测模型
- 学习目标:建立从输入空间到输出空间的映射函数(
Y=f(X)
或P(Y|X)
),实现精准预测 - 典型任务:
- 分类(Classification):预测离散类别标签(如垃圾邮件识别、医疗影像诊断)
- 回归(Regression):预测连续数值结果(如股票价格预测、房价评估)
2. 应用场景
- 金融风控:通过用户行为数据预测贷款违约概率(逻辑回归模型准确率>85%)
- 医疗诊断:基于CT图像的肿瘤良恶性分类(CNN模型灵敏度达93%)
- 工业质检:半导体晶圆缺陷检测(SVM+图像特征工程降低漏检率40%)
二、无监督学习(Unsupervised Learning)
1. 核心定义与特点
- 数据特征:使用无标签数据自主发现数据内在结构与规律,无需人工标注指导
- 核心任务:
- 聚类(Clustering):基于相似性将数据分组(如客户分群、基因序列分析)
- 降维(Dimensionality Reduction):压缩数据维度并保留关键信息(如PCA、t-SNE)
- 密度估计(Density Estimation):学习数据分布以识别异常模式
2. 应用场景
- 市场细分:通过消费行为数据聚类划分用户群体(K-means算法优化广告投放策略)
- 图像处理:自编码器实现图像去噪与特征提取(MNIST数据集重构误差<5%)
- 推荐系统:协同过滤发现用户潜在兴趣模式(提升电商平台点击率20%)
三、强化学习(Reinforcement Learning)
1. 核心定义与特点
- 学习机制:通过与环境交互试错,根据奖励信号(Reward)优化决策策略,追求长期累积奖励最大化
- 核心要素:
- Agent(智能体):执行决策的主体(如自动驾驶车辆)
- Environment(环境):Agent交互的物理或虚拟空间
- State-Action-Reward:状态-动作-奖励的动态反馈循环
2. 应用场景
- 游戏AI:AlphaGo通过策略网络与价值网络击败人类围棋冠军
- 自动驾驶:DQN算法优化车辆路径规划(降低碰撞风险60%)
- 工业控制:机械臂抓取策略优化(Q-learning提升操作成功率至95%)
范式对比与选择原则
维度 | 监督学习 | 无监督学习 | 强化学习 |
---|---|---|---|
数据需求 | 需大量标注数据 | 无需标注数据 | 需动态环境反馈 |
目标明确性 | 明确预测目标(分类/回归) | 探索数据内在结构 | 最大化长期累积奖励 |
典型算法 | 逻辑回归、SVM、神经网络 | K-means、PCA、GAN | Q-learning、Actor-Critic |
适用场景 | 医疗诊断、金融预测 | 市场分析、特征工程 | 机器人控制、游戏策略优化 |
技术演进趋势:
- 混合范式融合:半监督学习结合标注与未标注数据提升模型泛化能力
- 跨模态学习:自监督预训练(如BERT)降低对标注数据的依赖
- 因果推理增强:在强化学习中引入因果图模型提升决策可解释性
版权所有
版权归属:NateHHX