Physical Intelligence π0.7:机器人终于学会“举一反三“了

张开发
2026/5/2 23:28:17 15 分钟阅读
Physical Intelligence π0.7:机器人终于学会“举一反三“了
5B参数第一次证明组合泛化能力。有人说这是机器人的GPT-2时刻。01今天聊一个让我有点兴奋的技术突破。4月17日Physical Intelligence发布了新模型π0.7。这家成立仅两年的公司在机器人领域投下了一颗深水炸弹。核心突破就一句话机器人终于能举一反三了。02什么叫举一反三你教会机器人切菜、教会它开燃气、教会它翻炒。当你想吃番茄炒蛋的时候虽然从来没有专门教过它但它能把这三个技能组合起来完成一道新菜。这就是组合泛化能力。大语言模型早就具备这种能力了。你问它为什么月亮总是一面朝向我们它从来没学过这个问题但它能组合学过的物理知识和推理能力给你一个正确的答案。但机器人一直做不到。以前的机器人一个任务、一个模型。学会折叠衬衫就只会折叠衬衫。换一个新厨房布局它就傻眼了。03π0.7怎么做到的技术细节有点复杂但核心思想很精妙。简单说他们改变了数据的说明书。以前的训练数据只有一句话“清理冰箱”。π0.7的训练数据有四层信息任务指令“打开冰箱”子目标图像下一秒画面应该长什么样策略元数据这条数据质量几分、有没有出错控制模态用的是关节控制还是末端执行器控制有了这些丰富的context模型不仅知道做什么还知道怎么做、“做得好不好”。于是它就能从失败数据里学习、从其他机器人的数据里学习、甚至从人类视频里学习——这些数据以前都是噪音现在全变成了有用的信号。04效果怎么样论文里有两个很炸的demo。第一个空气炸锅烤红薯模型从未见过完整的空气炸锅烤红薯任务。但当研究者用自然语言逐步指令——“打开空气炸锅”、“拿起红薯”、“把红薯放进炸篮”、“关闭炸篮”——π0.7能精准跟随这些指令完成整个任务。最初成功率只有5%。花了半小时优化提示工程后成功率跃升至95%。研究者后来找到了它学会这个任务的原因训练数据里只有两段相关片段——一段是关闭空气炸锅标注为把炸篮推进空气炸锅另一段是把空气炸锅的炸篮放在台面最左边。这两段完全不相关的数据被模型组合成了新技能。第二个跨本体迁移研究者把π0.7部署到一台完全不同的机械臂——双臂UR5e工业系统。这台机器人从未收集过任何折叠衣物的数据。结果π0.7在折叠T恤任务上的进度达到85.6%与10名拥有375小时操作经验的顶级人类操作员零样本的90.9%基本打平。更有意思的是π0.7采用的抓取策略与训练数据中的完全不同。人类操作员用倾斜夹爪贴住桌面抓取π0.7在UR5e上自发采用了垂直抓取——因为UR5e手臂更长、更重垂直抓取更适合它的运动学特性。它不是在复制运动轨迹而是在理解任务目标后找到适合自己身体的新解法。05还有一个反直觉的发现。论文里有个实验把叠衣服的数据按质量分成四档——top30%、top50%、top80%、全部数据。然后分别训练两个版本一个加元数据标签一个不加。结果不加元数据的版本数据越多性能越差低质量数据把模型带歪了加元数据的版本数据越多性能越好哪怕混了大量低质量数据这说明什么过去大家觉得数据清洗是训练机器人的关键难题。但这个实验证明数据清洗可能是个伪问题。你不需要清洗数据只需要告诉模型这条数据质量几分、用了什么策略。模型自己能学会分辨好坏。最后物理学家格雷克·莱文Sergey Levine评价这个突破时说了一句话“一旦模型从’只能做收集过数据的事’变成’开始重组出新事’能力就会超线性地随数据增长。”大语言模型走过了从GPT-1到GPT-2的跃升才展现出这种组合泛化能力。机器人的GPT-2时刻可能正在到来。当然现在还只是早期。机器人在复杂环境下的稳定性、实时响应能力、与物理世界的交互精度都还有很长的路要走。但方向是对的。关于作者作者近 20 年技术生涯待过大厂也创过业。 懂大厂的规范与困境也懂创业公司的敏捷与无奈。 懂技术也懂商业实践用技术重构传统业务。欢迎转发转载请注明出处。 觉得有用欢迎点赞 - 让更多人看到转发 - 分享给需要的同事/朋友关注 - 不错过后续更多精彩内容分享

更多文章