外观
马尔科夫决策
约 1118 字大约 4 分钟
2025-03-03
一、基本定义与核心要素
马尔可夫决策过程(Markov Decision Process, MDP)是强化学习的数学框架,用于建模智能体在序贯决策问题中的动态交互过程。其核心通过五元组定义:
- 状态空间(S):环境可能的所有状态集合,例如迷宫中的坐标位置 (x,y)。
- 动作空间(A):智能体在每个状态下可执行的动作集合,如机器人导航中的“上、下、左、右”移动。
- 转移概率(P):描述执行动作后状态转移的随机性,例如在状态 s 执行动作 a 后转移到 s′ 的概率为 P(s′∣s,a)。
- 奖励函数(R):即时反馈信号,例如到达迷宫终点获得+10奖励,碰撞障碍物获得-5惩罚。
- 折扣因子(γ):取值范围 [0,1],用于权衡当前奖励与未来奖励的重要性(γ趋近1时更关注长期收益)。
二、马尔可夫性质的核心特性
MDP的核心假设是马尔可夫性,即未来状态仅依赖于当前状态和动作,与历史无关:
- 数学表达:P(St+1∣St,At)=P(St+1∣S1,S2,...,St),历史状态对未来的影响完全由当前状态 St 和动作 At 决定。
- 实际意义:简化建模复杂度,例如自动驾驶中只需关注当前车辆位置和路况,无需记忆过去路径。
三、目标与价值函数
1. 目标
智能体的目标是找到最优策略(π*),最大化累积折扣奖励的期望值:
Gt=Rt+1+γRt+2+γ2Rt+3+...
- 策略(π):从状态到动作的概率映射,例如在路口状态选择直行的概率为80%。
- 终止状态:对于存在终止的任务(如迷宫游戏),累积奖励为有限和;对于连续任务(如机器人持续服务),需通过γ保证收敛。
2. 价值函数
- 状态值函数(V(s)):表示从状态 s 开始遵循策略 π 的预期累积奖励,即 Vπ(s)=Eπ[Gt∣St=s]。
- 动作值函数(Q(s,a)):表示在状态 s 执行动作 a 后继续遵循策略 π 的预期累积奖励,即 Qπ(s,a)=Eπ[Gt∣St=s,At=a]。
四、Bellman方程与求解方法
1. Bellman方程
- 状态值函数方程:
Vπ(s)=Σaπ(a∣s)Σs′P(s′∣s,a)[R(s,a,s′)+γVπ(s′)]
表示当前状态值等于即时奖励加上未来状态的折扣值期望。 - 最优Bellman方程:
V∗(s)=maxaΣs′P(s′∣s,a)[R(s,a,s′)+γV∗(s′)]
通过动态规划递归求解全局最优值。
2. 求解算法
- 值迭代(Value Iteration):
迭代更新状态值直至收敛,公式为 Vk+1(s)=maxaΣs′P(s′∣s,a)[R+γVk(s′)],最终通过 V∗ 提取最优策略。 - 策略迭代(Policy Iteration):
交替进行策略评估(固定策略计算 Vπ)和策略改进(根据 Vπ 更新策略),收敛速度通常优于值迭代。
五、典型应用场景
- 机器人路径规划:
- 状态为位置坐标,动作为移动方向,奖励函数设计为避开障碍物与快速到达终点。
- 游戏AI:
- 如《星际争霸》中智能体通过MDP建模资源采集与战术选择,最大化胜利概率。
- 资源调度:
- 工厂生产线通过MDP优化任务分配,平衡设备利用率与交货期限。
- 医疗决策:
- 根据患者状态(如血压、心率)选择治疗方案,奖励函数关联康复率与副作用风险。
六、扩展与挑战
- 部分可观测MDP(POMDP):当状态无法完全观测时需引入置信状态(Belief State),计算复杂度显著增加。
- 多智能体MDP:需处理智能体间的协作与竞争,例如交通系统中的车辆协同避让。
- 实时性挑战:大规模状态空间的求解效率问题,需结合深度学习与近似算法。
七、总结
MDP通过形式化建模状态、动作与奖励的交互关系,为强化学习提供了理论基石。其核心思想在自动驾驶、智能游戏等场景中展现出强大生命力,而扩展模型与高效求解算法仍是未来研究的关键方向。
版权所有
版权归属:NateHHX