从Java转行大模型应用,Agent应用开发,Agent决策模型及三大核心框架(ReAct、Plan-and-Execute、Self-Ask)学习

张开发
2026/5/5 7:12:37 15 分钟阅读
从Java转行大模型应用,Agent应用开发,Agent决策模型及三大核心框架(ReAct、Plan-and-Execute、Self-Ask)学习
一、Agent决策模型基础认知Agent智能体决策模型是指智能体在复杂环境中通过感知输入、分析问题、制定策略、执行动作最终实现目标的一套系统性逻辑。其核心目标是让智能体具备“自主判断、动态调整、高效达成目标”的能力本质是“感知-思考-行动”的闭环迭代过程。常见的Agent决策框架均围绕“闭环迭代”展开但在“思考环节”的颗粒度、行动逻辑上存在差异本次重点学习三大经典框架ReAct、Plan-and-Execute、Self-Ask三者适用于不同复杂度的任务场景可单独使用也可组合应用。二、ReAct框架行动驱动型决策2.1 核心定义ReActReact: Synergizing Reasoning and Acting in Language Models是由Google Research于2022年提出的Agent决策框架核心逻辑是“推理与行动交替进行”——智能体通过自然语言推理Reason明确下一步行动执行行动Act获取反馈再基于反馈继续推理形成“推理-行动-反馈-再推理”的闭环无需提前规划完整路径主打“边想边做”。2.2 核心流程四步闭环观察Observation获取环境输入、任务目标或上一步行动的反馈如工具调用结果、环境变化推理Reasoning基于观察结果分析当前状态与目标的差距判断“下一步该做什么”“为什么要做”比如“我需要查询XX信息因为当前缺少这个条件”行动Action执行具体动作包括工具调用如搜索、计算、信息输出、环境交互等动作需具体、可执行不能是抽象思考反馈Feedback接收行动结果判断是否达到阶段性目标若未达到则返回“观察”环节继续迭代若达到则结束流程。2.3 核心特点优势灵活性强无需提前规划完整路径能应对动态变化的环境如信息不完整、任务目标微调推理过程可解释每一步行动都有明确的推理依据劣势缺乏全局规划容易陷入“局部最优”对于复杂、多步骤的任务可能出现行动冗余、效率低下的问题依赖即时反馈若反馈不及时或不准确会影响决策迭代。2.4 适用场景适用于信息不完整、动态变化、步骤相对零散的任务如问答系统需逐步检索信息、简单工具调用如查天气、算汇率、客服对话根据用户反馈调整回复。三、Plan-and-Execute框架规划驱动型决策3.1 核心定义Plan-and-Execute规划-执行框架是一种“先全局规划再分步执行”的决策模式核心是将复杂任务拆解为可执行的子任务先制定完整的规划方案再按规划逐步执行执行过程中可根据反馈微调规划主打“先想清楚再做”。该框架分为两个核心模块规划器Planner和执行器Executor二者分工明确、协同工作。3.2 核心流程两步核心闭环微调规划阶段Planner输入任务目标、环境约束如可用工具、时间限制输出完整的规划方案——将总目标拆解为若干个有序的子任务明确每个子任务的目标、执行顺序、所需资源/工具。执行阶段Executor按规划顺序执行每个子任务执行过程中记录结果成功/失败、异常信息反馈将执行结果返回给规划器若子任务执行失败或出现异常规划器对原有规划进行微调如调整子任务顺序、更换执行方式。闭环迭代重复“执行-反馈-微调”直至所有子任务完成达成总目标。3.3 核心特点优势全局视野强能避免局部最优适合复杂、多步骤、目标明确的任务子任务拆解清晰执行效率高可追溯、可调试劣势规划阶段依赖完整的信息若环境变化剧烈如突发异常、目标调整规划方案可能失效调整成本较高对于简单任务规划环节会增加冗余。3.4 适用场景适用于目标明确、步骤复杂、可拆解的任务如项目管理拆解任务、分配资源、复杂数据分析分步处理数据、生成报告、代码开发拆解模块、逐步实现。四、Self-Ask框架自我提问型决策4.1 核心定义Self-Ask自我提问框架是一种“通过自我提问引导推理”的决策模式核心逻辑是智能体通过不断向自己提出问题如“我现在需要什么信息”“这个步骤是否正确”逐步梳理思路、补充信息最终形成决策并执行主打“自我引导、逐步深入”。与ReAct相比Self-Ask更侧重“内部推理”行动环节可作为推理的补充与Plan-and-Execute相比Self-Ask无明确的“全局规划”而是通过提问逐步构建推理路径。4.2 核心流程三步迭代初始提问Initial Question基于任务目标提出第一个核心问题如“要完成这个任务我首先需要解决什么”自我解答与追问Self-Answering Follow-up解答当前问题若解答过程中发现信息缺失继续提出新的追问如“解答这个问题需要XX数据我该如何获取”重复“提问-解答-追问”直至梳理出完整的推理路径和行动方案。执行与验证Execution Verification根据梳理出的方案执行行动执行后通过自我提问验证结果如“这个结果是否符合目标”“是否有遗漏的步骤”若未达标则返回追问环节。4.3 核心特点优势推理过程细致、可解释能有效避免思维漏洞无需依赖外部反馈初期可自主梳理思路适合需要深度思考的任务劣势容易陷入“过度提问”导致推理效率低下缺乏明确的行动导向若提问方向偏差会偏离任务目标不适用于动态变化的环境。4.4 适用场景适用于需要深度推理、信息相对固定、无需频繁交互的任务如逻辑推理题、文案创作逐步梳理思路、知识点梳理通过提问完善体系。五、三大框架对比总结框架类型核心逻辑核心优势核心劣势适用场景ReAct推理与行动交替边想边做灵活性强可应对动态环境推理可解释缺乏全局规划效率可能偏低信息不完整、动态变化、简单任务Plan-and-Execute先规划再执行动态微调全局视野效率高可追溯规划调整成本高依赖完整信息目标明确、步骤复杂、可拆解任务Self-Ask自我提问引导推理逐步深入推理细致可自主梳理思路可解释效率低易偏离方向深度推理、信息固定、无需频繁交互六、学习总结三大框架的核心区别在于“思考与行动的关系”ReAct是“行动驱动思考”Plan-and-Execute是“思考规划驱动行动”Self-Ask是“思考提问驱动思考”实际应用中无需拘泥于单一框架可组合使用如用Plan-and-Execute做全局规划用ReAct处理每个子任务的动态执行用Self-Ask梳理子任务的推理细节Agent决策的核心是“闭环”——无论哪种框架都需要实现“感知-思考-行动-反馈”的迭代否则无法应对复杂任务选择框架的核心依据任务复杂度、信息完整性、环境动态性信息越完整、任务越复杂越适合Plan-and-Execute信息越零散、环境越动态越适合ReAct。

更多文章