马尔科夫决策

约 1118 字大约 4 分钟

一、基本定义与核心要素

马尔可夫决策过程（Markov Decision Process, MDP）是强化学习的数学框架，用于建模智能体在序贯决策问题中的动态交互过程。其核心通过五元组定义：

状态空间（S）：环境可能的所有状态集合，例如迷宫中的坐标位置 $(x, y)$ 。
动作空间（A）：智能体在每个状态下可执行的动作集合，如机器人导航中的“上、下、左、右”移动。
转移概率（P）：描述执行动作后状态转移的随机性，例如在状态 $s$ 执行动作 $a$ 后转移到 $s'$ 的概率为 $P(s'|s,a)$ 。
奖励函数（R）：即时反馈信号，例如到达迷宫终点获得+10奖励，碰撞障碍物获得-5惩罚。
折扣因子（γ）：取值范围 $[0,1]$ ，用于权衡当前奖励与未来奖励的重要性（γ趋近1时更关注长期收益）。

二、马尔可夫性质的核心特性

MDP的核心假设是马尔可夫性，即未来状态仅依赖于当前状态和动作，与历史无关：

数学表达： $P(S_{t+1}|S_t, A_t) = P(S_{t+1}|S_1, S_2, ..., S_t)$ ，历史状态对未来的影响完全由当前状态 $S_t$ 和动作 $A_t$ 决定。
实际意义：简化建模复杂度，例如自动驾驶中只需关注当前车辆位置和路况，无需记忆过去路径。

三、目标与价值函数

1. 目标

智能体的目标是找到最优策略（π*），最大化累积折扣奖励的期望值：
$G_t = R_{t+1} + γR_{t+2} + γ²R_{t+3} + ...$

策略（π）：从状态到动作的概率映射，例如在路口状态选择直行的概率为80%。
终止状态：对于存在终止的任务（如迷宫游戏），累积奖励为有限和；对于连续任务（如机器人持续服务），需通过γ保证收敛。

2. 价值函数

状态值函数（V(s)）：表示从状态 $s$ 开始遵循策略 $π$ 的预期累积奖励，即 $V^π(s) = E_π[G_t | S_t = s]$ 。
动作值函数（Q(s,a)）：表示在状态 $s$ 执行动作 $a$ 后继续遵循策略 $π$ 的预期累积奖励，即 $Q^π(s,a) = E_π[G_t | S_t = s, A_t = a]$ 。

四、Bellman方程与求解方法

1. Bellman方程

状态值函数方程：
$V^π(s) = Σ_{a} π(a|s) Σ_{s'} P(s'|s,a)[R(s,a,s') + γV^π(s')]$
表示当前状态值等于即时奖励加上未来状态的折扣值期望。
最优Bellman方程：
$V*(s) = max_a Σ_{s'} P(s'|s,a)[R(s,a,s') + γV*(s')]$
通过动态规划递归求解全局最优值。

2. 求解算法

值迭代（Value Iteration）：
迭代更新状态值直至收敛，公式为 $V_{k+1}(s) = max_a Σ_{s'} P(s'|s,a)[R + γV_k(s')]$ ，最终通过 $V*$ 提取最优策略。
策略迭代（Policy Iteration）：
交替进行策略评估（固定策略计算 $V^π$ ）和策略改进（根据 $V^π$ 更新策略），收敛速度通常优于值迭代。

五、典型应用场景

机器人路径规划：
- 状态为位置坐标，动作为移动方向，奖励函数设计为避开障碍物与快速到达终点。
游戏AI：
- 如《星际争霸》中智能体通过MDP建模资源采集与战术选择，最大化胜利概率。
资源调度：
- 工厂生产线通过MDP优化任务分配，平衡设备利用率与交货期限。
医疗决策：
- 根据患者状态（如血压、心率）选择治疗方案，奖励函数关联康复率与副作用风险。

六、扩展与挑战

部分可观测MDP（POMDP）：当状态无法完全观测时需引入置信状态（Belief State），计算复杂度显著增加。
多智能体MDP：需处理智能体间的协作与竞争，例如交通系统中的车辆协同避让。
实时性挑战：大规模状态空间的求解效率问题，需结合深度学习与近似算法。

七、总结

MDP通过形式化建模状态、动作与奖励的交互关系，为强化学习提供了理论基石。其核心思想在自动驾驶、智能游戏等场景中展现出强大生命力，而扩展模型与高效求解算法仍是未来研究的关键方向。

更新日志

2025/8/18 00:31

查看所有更新日志

bd1d0-迁移目录于 2025/8/18
20615-update于 2025/3/7
a48ce-update于 2025/3/3

版权所有

版权归属：NateHHX

许可证：署名 4.0 国际 (CC-BY-4.0)