强化学习基础：从网格世界到马尔可夫决策过程的核心概念解析

张开发

• 2026/5/5 21:57:07 • 15 分钟阅读

分享文章

1. 从网格世界开始理解强化学习想象你是一个刚学会走路的小孩面前放着一块巧克力。你想拿到它但不知道该怎么走。你会先试着迈出左脚如果发现离巧克力更近了就会记住这个动作如果撞到墙了就会换个方向尝试。这就是强化学习最朴素的原理——通过试错来学习最优行为策略。网格世界Grid World是理解强化学习最经典的示例。我们可以把它看作一个9宫格迷宫机器人从起点出发目标是找到通往终点的最优路径。在这个过程中机器人会经历以下几个关键环节探索未知刚开始机器人完全不知道迷宫结构可能会撞墙或绕远路获得反馈每次移动后会收到环境给出的奖励信号比如撞墙扣分到达终点加分积累经验通过反复尝试逐渐建立什么状态下采取什么动作更好的认知这个看似简单的模型其实包含了强化学习的所有核心要素。我在教学生时发现很多人在学习强化学习时喜欢直接研究复杂算法结果越学越糊涂。其实就像学数学要先掌握加减乘除一样吃透网格世界这个基础模型后续理解深度Q网络、策略梯度等高级算法会容易很多。2. 拆解强化学习的核心组件2.1 状态与动作空间在网格世界中状态(State)就是机器人所在的位置坐标。比如3x3的网格可以用s1到s9表示每个格子位置。这构成了问题的状态空间——所有可能位置的集合。动作(Action)则是机器人在每个位置可以采取的行为。通常包括上下左右移动有时还包括保持不动。值得注意的是不同状态下可用的动作可能会不同——比如在边缘格子就不能继续往墙的方向移动。这就引出了动作空间的概念即每个状态下可执行的动作集合。我在实现第一个网格世界demo时犯过一个典型错误没有处理好边界状态的动作限制。结果机器人到了边缘还试图往外走导致程序报错。这提醒我们正确定义状态和动作空间是构建强化学习模型的第一步。2.2 状态转移的随机性当机器人在s1选择向右移动时理想情况下应该到达s2。但现实往往更复杂可能有80%概率成功到达s210%概率因为地面打滑实际向上到了s410%概率卡在原地不动这种不确定性用状态转移概率来描述。在代码中可以用嵌套字典实现transition_prob { s1: { right: {s2:0.8, s4:0.1, s1:0.1}, up: {...}, ... }, ... }实际项目中我发现很多初学者会忽略状态转移的随机性直接假设动作执行是确定的。这种简化虽然方便理解但会丢失强化学习处理不确定环境的核心能力。2.3 策略的本质与实现**策略(Policy)**告诉机器人在每个状态下应该采取什么动作。它可以是确定性策略像导航地图一样明确指示在s1向右转随机性策略比如在s1有60%概率向右40%概率向上用Python可以这样表示一个随机策略policy { s1: {right:0.6, up:0.4}, s2: {left:0.3, down:0.7}, ... }在项目实践中我更喜欢先用均匀随机策略所有动作概率相等作为baseline再逐步优化。这能避免算法过早陷入局部最优。3. 奖励设计中的学问3.1 奖励信号的设计原则**奖励(Reward)**是环境给机器人的反馈信号。在网格世界中通常这样设置到达目标10分撞到墙壁-1分普通移动-0.1分鼓励尽快到达目标但奖励设计其实很有讲究。有次我把普通移动奖励设为0结果机器人学会了在起点附近转圈拖延时间——因为这样能避免扣分。这让我意识到奖励函数需要引导智能体完成真正目标而不仅是表面任务。3.2 折扣回报的计算考虑到长期收益我们引入折扣因子γ通常取0.9-0.99来计算折扣回报G_t R_{t1} γR_{t2} γ²R_{t3} ...Python实现示例def calculate_return(rewards, gamma0.9): return sum(gamma**i * r for i,r in enumerate(rewards))在机器人路径规划项目中我发现γ取值对结果影响很大γ太小会导致近视行为太大则增加训练难度。通常需要多次调参才能找到平衡点。4. 马尔可夫决策过程的形式化4.1 MDP的五要素**马尔可夫决策过程(MDP)**用数学语言描述了强化学习问题状态空间S所有可能状态动作空间A所有可能动作状态转移概率P(s|s,a)奖励函数R(s,a,s)折扣因子γ在网格世界中这些要素都很直观。但当我将其应用到股票交易系统时状态定义就变得复杂多了——需要考虑价格、持仓、市场情绪等多个维度。4.2 马尔可夫性质的重要性马尔可夫性质指出下一状态只取决于当前状态和动作与历史状态无关。这大大简化了问题建模。但现实中很多问题并不完全满足这个性质这时我们需要扩展状态表示如包含过去n个状态使用RNN等记忆网络转为部分可观测MDP(POMDP)问题在开发智能游戏AI时我就遇到过非马尔可夫的情况。角色需要记住之前的敌人位置才能做出最佳决策这时简单的网格世界模型就不够用了。5. 从理论到实践的思考虽然网格世界看起来简单但它揭示了强化学习的本质问题如何在不确定环境中通过试错学习最优策略。我建议学习者在理解这些基础概念后可以尝试以下实践用Python实现一个可交互的网格世界环境手动设计不同策略观察效果实现简单的值迭代算法尝试修改奖励函数观察策略变化这些实践经验比单纯理论学习要有价值得多。当初我在调试第一个强化学习项目时花了三周时间才意识到问题出在奖励函数的设计上——理论很完美但魔鬼都在细节中。