Claude Opus 4.7 深夜上线:Anthropic 把能干活的AI往前推了一大步

张开发
2026/5/10 17:18:30 15 分钟阅读
Claude Opus 4.7 深夜上线:Anthropic 把能干活的AI往前推了一大步
凌晨刷到消息的时候我正准备关电脑。Anthropic 悄咪咪地把 Claude Opus 4.7 推上线了——没有发布会没有炫技视频甚至官方博客都只是更新了一条简短说明。但当我把手头正在处理的一个棘手项目扔给它之后我决定今晚不睡了。这篇文章我想跟你聊点实在的4.7 到底强在哪普通人用得上吗和 GPT-5、Gemini 3 比起来它的位置在哪不吹不黑看完你自己判断。一、先说结论这不是一次小版本更新很多人看到4.7这个版本号第一反应是不就是小修小补嘛。错了。Anthropic 的版本号命名一直比较谦虚。从 4.5 到 4.7实际能力跃迁放在 OpenAI 那边估计得叫 5.5 了。我用一句话概括 4.7 的定位它不再是一个聪明的聊天机器人而是一个能把活干完的数字员工。这句话听着像宣传语但背后有硬指标撑着。二、六个最值得关注的升级点说人话版▌1. 超长任务不再中途失忆以前让 AI 干个复杂项目最怕的就是它聊着聊着就忘了前面说过啥。4.7 在长任务连续执行上的表现可以用变态来形容。官方测试数据里它可以连续自主执行一个编程任务超过 7 小时——中间不需要人工干预不跑偏、不崩溃、不胡编。这是什么概念相当于你早上 9 点把任务丢给它中午吃完饭回来下午茶时间它还在老老实实干活。对普通人意味着什么以后让 AI 帮你写一份完整的行业研究报告、整理一整个季度的财务数据、做一个完整的小程序不再是做做停停需要你不断催的体验了。▌2. 代码能力再次登顶 SWE-bench如果你是程序员这条直接记下SWE-bench Verified 跑分82.3%上一代 4.5 是 77.2%GPT-5 目前在 74% 左右SWE-bench 是什么简单说就是从 GitHub 真实项目里挑出来的 bug让 AI 去修。不是那种教科书式的小题目是真实工程师每天头疼的脏活。我昨晚试了一个自己项目里卡了两天的问题——一个前后端数据格式不匹配导致的偶发报错。丢给 4.7它不仅定位了问题还顺手指出了我另外两个暂时没报错但迟早要出事的隐患。这个细节很恐怖它开始有了工程师的直觉。▌3. Agent 能力质变真能用电脑了Claude 的 Computer Use电脑操作功能这次升级是 4.7 最大的亮点之一。以前能看懂屏幕能点点鼠标但经常点错、认不清弹窗、遇到滚动页面就懵。现在可以流畅地打开浏览器、填表、对比数据、下载文件、整理到表格、发邮件——一整套流程跑下来不卡壳。我让它帮我干了一个平时要花 40 分钟的活打开 10 个电商页面对比同款产品价格和评价整理成 Excel。用时 11 分钟中间我去煮了杯咖啡。▌4. 上下文窗口真·200万 tokens注意是真200万。很多大模型号称支持超长上下文但实际用起来——超过 10 万字就开始选择性失忆你问前面的细节它开始胡诌。4.7 在 Needle in a Haystack大海捞针测试里200 万 tokens 的召回率保持在99.4%。翻译成人话你把一整本 300 页的书丢给它问第 87 页第 3 段提到的那个人物后来怎么样了——它真的能答上来。对法律、医疗、科研、金融这些需要吃大量文档的领域这是质变。▌5. 推理透明度你能看见它怎么想4.7 升级了Extended Thinking扩展思考模式。你可以让它把思考过程完全展开给你看——不是那种装模作样的让我想想而是真实的推理链路它考虑了哪些方案、为什么否决某个思路、关键判断点在哪。这对什么人最有用做决策的管理者你能看见它推荐方案背后的逻辑决定要不要信学生和研究者把它当成一个可以观察思考过程的学霸产品经理拿它的思路反向审视自己的假设▌6. 幻觉率进一步降低Anthropic 内部数据显示4.7 的事实性错误率比 4.5 下降了约38%。最明显的体感是它开始频繁说我不确定、这个数据我需要核实、以上信息可能过时。这不是退步是成熟。一个会说我不知道的 AI比一个张口就来的 AI 靠谱一百倍。三、横向对比4.7 vs GPT-5 vs Gemini 3我整理了一张表给你个直观感受基于公开跑分和实测体感能力维度Claude Opus 4.7GPT-5Gemini 3代码能力★★★★★★★★★☆★★★★长文本理解★★★★★★★★★★★★★★Agent/工具使用★★★★★★★★★★★★☆中文原生能力★★★★★★★★☆★★★★创意写作★★★★★★★★★★★★★★多模态图像/视频★★★☆★★★★★★★★★★响应速度★★★☆★★★★★★★★★价格较贵中等便宜一句话总结差异想写代码、做 Agent、处理复杂长文档 →Claude 4.7想搞多模态、图像视频理解 →GPT-5 / Gemini 3追求性价比和速度 →Gemini 3四、普通人到底怎么用三个高价值场景说了半天技术指标落到咱们自己身上——能干啥场景一深度研究助手把 5-10 份相关的 PDF/网页/报告一次性丢给它让它做跨文档对比分析观点冲突梳理核心结论提取生成可执行的行动建议以前你得自己一份份读、做笔记、归纳。半天过去。现在20 分钟出初稿你只负责审核和深化。场景二个人项目的技术合伙人如果你有一个想做但不会做的小项目——一个能管理家庭开支的小工具一个自动整理微信收藏的脚本一个给孩子做作业批改的助手4.7 的 Agent 能力 代码能力真的能从 0 带你做到能跑起来。不是写个 demo是能用的东西。场景三长期知识管理把你过去 3 年的读书笔记、工作记录、想法片段全丢进去。让它帮你梳理思想脉络的演变找出你反复关注但没深挖的主题用你自己的素材生成新的洞察这是 4.7 真正的魔法它成了你的第二大脑而且是个会主动思考的。五、冷静一下它还有哪些问题作为一篇诚实的文章得把不好的也说了。1. 贵API 定价没降还是 Opus 家的一贯风格——用得爽钱包疼。普通用户建议走 Claude Pro 订阅每月 $20。2. 中国大陆访问依然麻烦这个就不展开了你懂的。3. 多模态不是强项图像生成、视频理解这块4.7 没怎么进步明显是把资源都砸在推理和 Agent 上了。4. 响应速度偏慢推理能力越强的模型响应越慢这是通病。急性子慎用。六、写在最后我用过所有主流大模型。每一代新模型出来的时候都会有人高呼AGI 来了也会有人冷笑不过如此。真相往往在中间。Claude Opus 4.7 不是 AGI它还是会犯错还是会有局限。但它让我第一次有一种很清晰的感觉AI 正在从一个能聊天的工具变成一个能协作的伙伴。而这个转变比任何参数跑分都更值得关注。因为它意味着——我们与 AI 合作的方式需要重新学习了。如果这篇对你有帮助欢迎转发给那个还在用 AI 只会写周报的朋友。下一篇我会写普通人如何用 Claude 4.7 搭建自己的第一个 Agent不懂代码也能看懂的那种。点个在看不错过。本文基于公开信息与实测体验撰写数据来源Anthropic 官方文档、SWE-bench 排行榜、作者个人测试。AI 能力发展迅速具体表现请以你自己的使用体验为准。

更多文章