MIAOYUN | 每周AI新鲜事儿 260403

张开发

• 2026/5/5 7:59:11 • 15 分钟阅读

分享文章

本周AI领域迎来密集发布美团、智谱、Google、阿里、京东、爱诗科技、阶跃星辰等相继推出多款高性能大模型覆盖推理、视频、生图、数字人、实时交互、编程等场景AI Agent与工具持续落地Claude、腾讯、TRAE、OpenClaw、百度健康等推出智能体产品企业微信、NVIDIA开源相关框架与接口同时Runway、UniPat AI等发布新工具多项技术开源与基准测评落地AI生成、协作与开发能力全面升级一起来回顾本周发生的AI新鲜事儿吧AI 大模型美团发布并开源原生多模态模型「LongCat-Next」及离散分词器3月27日美团发布并开源原生多模态模型「LongCat-Next」及离散分词器该模型将图像、语音、文本统一映射为同源离散Token通过DiNA架构、dNaViT分词器、SAE编码器三大核心技术实现多模态统一建模破解离散化信息损失难题打破传统多模态模型架构局限在视觉、音频、智能体等多维度表现优异实现理解与生成协同提升且未削弱语言核心能力还形成跨模态协同相关模型及工具已多平台开源。参考美团发布原生多模态 LongCat-Next当视觉和语音成为AI的母语智谱向GLM Coding Plan全量用户开放尚未正式发布的「GLM-5.1」模型3月27日智谱向GLM Coding Plan全量用户Lite/Pro/Max超前开放尚未正式发布的「GLM-5.1」模型用户可在Coding Agent自定义配置中手动切换模型接入官方提醒高负载时系统或触发保护性限流且集群繁忙时非核心编程场景请求更易被限流该高阶模型调用额度消耗分时段按不同系数计算高峰期每日14:00-18:00 UTC83倍、非高峰期2倍同时推出限时福利4月底前非高峰期调用仅1倍抵扣额度官方建议用户在非高峰时段体验。参考GLM-5.1交给你们了全量用户超前开放!Google发布「Gemini 3.1 Flash Live」实时模型重构人机交互范式3月28日Google发布「Gemini 3.1 Flash Live」实时模型经一年多打磨实现延迟、可靠性等阶跃式提升可构建毫秒级响应的语音视觉智能体能有效过滤交通、电视等背景噪音提升真实场景任务完成率还强化了语音识别与指令遵循能力。该模型已通过Gemini Live API推出预览版基于WebSocket连接支持音视频和文本流实时交互具备多语言、工具调用等核心能力还配套提供开发资源并联合伙伴完善部署能力已落地设计、老年陪伴、游戏等场景。参考谷歌干掉「请再说一次」Gemini 3.1毫秒级接话实时Agent时代来了通义实验室发布多模态模型「Qwen3.5-Omni」斩获215项SOTA3月30日通义实验室发布多模态模型「Qwen3.5-Omni」实现全感官进化原生支持文本、图片、音频及音视频全模态输入斩获215项SOTA自然涌现Vibe Coding能力还支持语义打断、音色克隆、256K超长上下文、113种语言识别可处理10小时音频/1小时视频原生兼容WebSearch和复杂工具调用能落地视频创作、智能对话、任务执行等多场景。参考215项SOTA 自然涌现Vibe CodingQwen3.5-Omni发布爱诗科技在拍我AI闪电发布周推出AI视频生成模型「PixVerse V6」3月31日爱诗科技在拍我AI闪电发布周推出AI视频生成模型「PixVerse V6」保持秒级生成、亲民价格的优势生成时长最长达15s在人物真实感、复杂运动、物理模拟和声画协同等方面全面升级。V6重点优化了人物细节让人物表现贴合实拍质感强化复杂运动场景处理运动关系更稳定、物理模拟更自然优化镜头语言实现镜头间连贯的视觉叙事同时降低创作门槛支持用简短描述生成结构完整的镜头和各类复杂特效、特殊镜头。参考拍我AI 闪电发布周 Day 1PixVerse V6 登场更真、更美、更好用京东推出「JoyStreamer」和「JoyStreamer-Flash」数字人大模型3月31日京东推出「JoyStreamer」和「JoyStreamer-Flash」数字人大模型突破行业文本控制弱、多模态信号冲突、长时生成受限等痛点实现长时长、自由态、实时互动的数字人生成性能超现有SOTA模型。模型可精准执行复杂全身动作唇形与音频完美同步核心依托双教师DMD后训练、动态CFG调制、历史帧编码伪最后一帧三大技术创新解决了数据偏见、模态冲突、身份漂移问题评分显著优于主流模型其中Flash版本还实现30FPS生成、无限时长高保真流式生成。参考京东卷出新高度硬刚「复杂指令」长时长、自由态数字人直播终于丝滑了通义实验室上线「Wan2.7-Image」生图模型人更真字更稳色更准4月1日通义实验室上线「Wan2.7-Image」生图模型从人、字、色等核心痛点出发实现系统性升级支持深度自定义虚拟形象骨相、五官等细节告别AI标准脸可稳定生成4000超长字符兼容多语言及表格、公式混排解决文字崩坏问题上线色彩控制调色盘支持输入色号或上传参考图精准还原品牌色新增精准框选编辑功能可像素级调整指定区域无需重新生图还支持最高12张组图生成、9张参考图保持角色一致性以及全透明通道PNG生成实现智能图层分离能满足自媒体、短剧、电商等多行业生图、改图需求。参考Wan2.7-Image人更真字更稳色更准Google上线AI视频生成模型「Veo 3.1 Lite」8秒AI视频成本不到34月1日Google上线AI视频生成模型「Veo 3.1 Lite」将8秒720p视频成本压至不到3元人民币720p每秒0.05美元、1080p每秒0.08美元出片仅需一两分钟还可对接APIGemini会员有免费积分可用但其画质不如Seedance 2.0和可灵3.0存在画面失真、内容变形问题。该模型定位成本优先Google Veo产品线现分三档覆盖精品交付、速度质量平衡、大批量快速迭代需求。此时推出该模型正是抓住OpenAI因算力成本过高关停Sora的市场机会在保证实用性的前提下降低成本打造开发者生态让视频生成成为大众化工具。参考Google发布Veo 3.1 Lite8秒视频不到3块钱美团LongCat团队发布并开源零样本语音克隆模型「LongCat-AudioDiT」4月1日美团LongCat团队发布并开源零样本语音克隆模型「LongCat-AudioDiT」含1B/3.5B版本该模型摒弃传统梅尔谱等中间表征采用波形潜空间直接生成架构通过Wav-VAE和扩散TransformerDiT实现声音的压缩、建模与重建同时以双重约束对齐DCA修复训练-推理不匹配问题用自适应投影引导APG替代传统CFG机制在Seed基准测试中取得SOTA表现3.5B版本在Seed-ZH和Seed-Hard测试集的说话人相似度SIM分别达0.818和0.797且保持高可懂度模型已在多平台开源。参考突破零样本TTS音色克隆上限LongCat-AudioDiT 的声音克隆艺术智谱发布面向视觉编程的多模态Coding基座模型「GLM-5V-Turbo」4月2日智谱发布面向视觉编程的多模态Coding基座模型「GLM-5V-Turbo」该模型原生融合视觉与文本能力能看懂设计稿、截图等并生成可运行代码200K上下文窗口可延伸Agent视觉交互链路且视觉能力加持下纯文本编程能力未退化在多模态Coding、GUI Agent等多项基准测试中表现领先还深度适配Claude Code等主流Agent并配套官方Skills。模型凭借架构、训练方法等四方面系统性升级实现性能突破在图像转代码、赋能龙虾Agent等场景落地效果显著也可应用于多模态搜索等更广Agentic场景。参考GLM-5V-Turbo发布多模态Coding基座模型全球首个通用实时世界模型「PixVerse R1」完成能力更新并向所有用户开放4月2日爱诗科技旗下全球首个通用实时世界模型「PixVerse R1」完成能力更新并向所有注册用户全面开放还将通过API为开发者和合作伙伴提供技术支持。本次新增专属数字分身和多人互动直播功能前者可上传照片生成三种风格虚拟角色并在数字世界沉浸式互动后者支持创作者在同一直播间输入指令实时生成画面还能实时聊天交流、共创内容此次更新进一步推动AI视频创作向实时互动和参与式体验拓展。参考爱诗科技闪电发布周 Day 3PixVerse R1 开启“实时共创时代”阿里千问大模型「Qwen3.6-Plus」正式上线并通过阿里云百炼API开放调用4月2日阿里千问大模型「Qwen3.6-Plus」正式上线并通过阿里云百炼API开放调用相较前代全方位能力跃升默认支持100万上下文窗口智能体编程与多模态感知推理能力大幅提升还能带来“氛围编程”体验该模型在代码、通用智能体、STEM推理、多语言及多模态各类评测中表现亮眼逐步向原生多模态智能体演进API新增实用功能且兼容主流协议可集成至多款第三方编程助手在前端开发、视觉推理、视频理解等真实场景中实用性突出能实现视觉智能体感知到执行的能力闭环。参考Qwen3.6-Plus走向现实世界智能体阶跃星辰上线「Step 3.5 Flash 2603」优化版模型Agent场景速度再提升4月2日阶跃星辰上线「Step 3.5 Flash 2603」优化版模型面向所有Step Plan用户开放该模型延续高响应速度与低成本优势新增low think mode并优化Coding和Agent框架默认推理模式下Token消耗降14%低推理模式下降56%且未牺牲智力还能主动修复报错在高频Agent场景中速度优势显著总耗时仅为其他参评模型一半同时支持通过OpenAI和Anthropic相关API配置思考强度。参考阶跃 Step 3.5 Flash 系列上新所有 Step Plan 用户现可体验Google推出专为高级推理和智能体工作流设计的开放模型「Gemma 4」4月3日Google正式推出专为高级推理和智能体工作流设计的开放模型「Gemma 4」采用Apache 2.0许可开放基于Gemini 3的研究技术构建拥有E2B、E4B、26B MoE、31B Dense四种规格在Arena.ai开放模型性能榜单中表现亮眼31B和26B模型分列第3、6位且能超越规模20倍的同类模型全系列模型具备高级推理、智能体工作流、多模态处理、长上下文、多语言支持等核心能力不同规格模型分别适配从Android设备、边缘硬件到高端GPU、云服务器等各类运行环境且针对不同硬件做了专属优化发布首日便支持多款主流开发工具。参考Gemma 4 现已发布: 同等规模下性能最强的开放模型AI AgentClaude Code新增自动模式「Auto mode」开启无人值守编程时代3月25日Claude Code正式上线自动模式「Auto mode」用户可通过一行命令开启并借助快捷键切换该模式下Claude能自主完成检索文件、写代码、运行命令等一系列编程操作无需用户逐步批准权限其通过内置安全分类器评估操作风险低风险操作自动放行、高风险操作则被拦截或需人工确认同时官方建议在Docker等隔离环境运行以平衡效率与安全目前该功能为团队计划的研究预览版企业版和API访问也将在数日內推出。参考Claude团队深夜祭出“自动模式”网友看呆了CC里程碑式进化无人值班确实上头但一周的token很快燃尽腾讯「WorkBuddy」小程序上线云端本机双模式解锁微信AI办公3月31日腾讯「WorkBuddy」微信小程序正式上线这是其在微信的第三个入口免下载新App、免注册新账号适配手机场景支持打字、语音、拍照、传文件等交互方式生成的各类产物可一键下载或转发小程序核心亮点是支持云端沙箱与本地电脑远程执行双模式本地模式可手机遥控电脑端远程操作本地文件和软件云端模式无需依赖电脑且支持定时任务二者可一键切换同时小程序内置GLM-5.0、Kimi-K2.5等多款主流大模型可按需灵活切换以节省Credits还拥有可插拔的技能体系及SkillHub技能市场能根据需求搭配能力包。参考腾讯WorkBuddy小程序上线支持云端本机双模式运行TRAE旗下「SOLO」桌面端与网页端开启内测双模式智能体加持3月31日TRAE.ai旗下的「SOLO」桌面端网页端全新上线并开启内测产品以双模式智能体和全新UI交互界面为核心打造Agent协作方式可让AI拆解并执行复杂任务。支持多端协同、三栏工作区交互集成各类技能工具通用/开发双模式可一站式完成多类工作适配多角色场景还能云端多任务并行、处理多格式文件产物直观展示且可修改。目前双端内测需邀请码桌面端暂仅支持macOS首批限时免费。参考SOLO 桌面端和网页端全新上线启动内测OpenClaw发布「v2026.3.31」新版本内置「QQ Bot」官方插件4月1日OpenClaw发布「v2026.3.31」新版本内置「QQ Bot」官方插件标志着QQ正式原生接入OpenClaw官方平台腾讯轻量云与QQ团队贡献的相关代码也已合入其主仓库。该插件支持QQ私聊、多媒体消息交互以及多账号、凭证管理等功能将AI能力嵌入式融入沟通场景且在QQ部署使用OpenClaw无需额外注册认证仅三步即可完成部署操作贴合日常聊天习惯兼容常见消息类型能满足日常工作生活需求。参考OpenClaw更新支持QQ Bot官方插件百度健康发布国内首款基于Claw框架打造的医生任务型AI助手「有医助理」4月2日百度健康发布国内首款基于Claw框架打造的医生任务型AI助手「有医助理」首创检索任务双引擎模式检索模式整合海量专业医学资源且深度融入CACA指南结论可溯源任务模式涵盖800项通用与医学专用Skill能满足科研、病历处理、患者报告管理等场景需求还具备医学专精、自主成长等特质及五层安全体系产品检索模式已全面开放任务模式限时免费招募中同时百度健康启动“未来医伴”公益计划组建三级赋能体系旨在通过AI技术赋能基层医疗、推动优质医疗资源下沉。参考行业首个百度健康发布“有医助理”医生有了“查做一体”的龙虾助手AI 工具Runway上线「Multi-Shot」App一句话生成带对话音效的完整剪辑视频3月28日消息Runway上线「Multi-Shot」App基于Gen-4.5模型支持图片或纯文字输入用户仅需一段描述就能自动生成最多5个镜头的完整视频全程自动完成镜头切换、对话、音效、节奏控制和电影化构图无需手动后期官方也展示了多款优质生成案例。该工具现阶段单镜头最长10秒、输出720p适合短片创作和产品演示可在Runway网页端使用按秒计费分免费和不同档位付费计划对应不同Credits额度。Runway近期融资后迭代频繁此次推出的「Multi-Shot」App是其垂直工具之一在行业聚焦单镜头画质时率先解决镜头拼接、后期制作的痛点实现文字到成品视频的一步生成。参考Runway Multi-Shot App一句话生成一整段带对话、音效和剪辑的视频UniPat AI发布「Echo」通用预测智能系统「EchoZ-1.0」登顶AI预测排行榜3月30日UniPat AI发布通用预测智能系统「Echo」核心模型「EchoZ-1.0」登顶通用AI预测排行榜鲁棒性拉满且在人类预测薄弱的高不确定性、长周期场景优势显著。「Echo」含动态评测引擎、Train-on-Future训练范式和专用模型三大核心引擎通过多环节闭环解决传统预测基准的时序不对称、题源单一问题训练范式则攻克了数据泄露、结果导向偏差等痛点。UniPat AI计划将其预测能力封装为AI原生预测API开放未来可嵌入金融、企业战略等多决策场景让预测成为可调用、可集成的参数。参考Echo迈向通用预测智能甲子光年爱诗科技PixVerse推出快应用、团队版、PixVerse CLISkills三大效率工具4月1日爱诗科技PixVerse推出快应用「Mini Apps」、团队版「Team Plan」、「PixVerse CLISkills」三大效率工具推动AI视频生产从单点生成工具升级为完整创作系统。快应用为轻量化多模态创作工具首批上线广告大师可自动生成商品广告视频混剪成片等功能即将上线简化视频制作团队版面向2-100人团队支持积分共享、四级权限管理及双独立空间保障内容资产管理CLI为开发者提供命令行工具可终端调用生成能力兼容多开发环境和主流AI工具还配备预置Skills助力视频生成能力融入自动化工作流。参考爱诗科技闪电发布周 Day 2三大效率工具上线让AI视频创作全面提速OpenClaw官宣和火山引擎共建「ClawHub」中国镜像站4月2日OpenClaw官宣「ClawHub」中国镜像站上线由火山引擎赞助基础设施该镜像站技能完成安全扫描、支持一键切换大幅降低国内开发者使用门槛海外开发者也反馈延迟显著优化。火山引擎同时公布豆包大模型日耗Token达120万亿跻身全球第三增量源于AI视频和智能体应用。其Seedance 2.0成全球顶级AI视频模型并开放企业公测豆包2.0Pro国内测评领先火山引擎还拥有完善Skill生态与独家安全认证AI云市场竞争全面开启。参考中国第一全球第三Token日耗120万亿直逼谷歌OpenAI技术突破前React大佬借Claude打造「Pretext」重构前端文本排版测量3月30日消息前React核心成员Cheng Lou开发的前端开源库「Pretext」在GitHub上线仅48小时星标破万该项目由Claude Code和Codex辅助开发以纯TypeScript编写轻量级文本测量算法可绕开DOM和CSS实现无重排的精准文本排版尺寸计算速度较传统方法快数百倍其通过预处理分词测量缓存、纯数学算法模拟浏览器换行规则的两阶段机制复刻了浏览器级排版行为解决了多语言混排、浏览器差异等复杂边界问题。「Pretext」让文字布局成为纯函数大幅降低AI生成UI的布局计算难度在聊天应用虚拟滚动、内容产品排版、AI生成UI等场景价值显著。参考48小时10k星React 大佬借助 Claude 和 Codex 搞出新项目卷翻前端清华与智谱团队联合推出「Vision2Web」基准评估AI网站开发能力3月30日清华与智谱团队联合推出「Vision2Web」分层级基准用于评估多模态代码Agent的视觉网站开发能力该基准设静态网页、交互前端、全栈网站三级进阶任务基于真实网站构建含193个开发任务的数据集搭配工作流式Agent验证范式做功能和视觉双重评估。团队测试多款前沿模型发现模型性能随任务复杂度提升显著下降设备适应性有短板Claude-Opus-4.5表现最优框架、网站及功能类别均影响模型表现当前Agent在系统级工程化等方面存在明显局限未来研究需聚焦分层任务设计与自主评估范式。参考独家智谱唐杰团队推出编码Agent基准Vision2Web明天将公布年报企业微信正式在GitHub开源「CLI」项目支持Claude Code等主流AI Agent3月30日企业微信正式在GitHub开源「CLI」项目支持Claude Code等主流AI Agent向AI开放消息通讯录、文档智能表格、日程会议、待办任务等7大办公核心能力且优先面向10人及以下企业开放相较传统API接口「CLI」模式更贴合AI思维能简化处理复合任务降低开发与集成门槛减少Token使用成本用户可通过配置机器人信息、安装「CLI」及相关SKILL、调用对应技能三步快速接入项目还提供了通讯录、会议、文档等多类细分技能此次开源让企业微信核心能力从人工使用转向AI可调用推动AI在办公场景中从答疑升级为协助完成实际工作。参考企业微信正式开源CLI AI可调用7大能力NVIDIA开源机器人操控框架「CaP-X」机器人自主写代码完成操控4月2日NVIDIA开源机器人操控框架「CaP-X」以“代码即策略”为核心让机器人能通过摄像头理解环境并生成Python代码自主控制成功代码会自动存入技能库且适用于不同形态机器人还可将具身大模型如VLA作为API调用其包含CaP-Gym交互式训练环境、CaP-Bench层级化基准测试、CaP-Agent0智能体框架及CaP-RL强化学习算法等组件CaP-Agent0凭借多轮视觉差异比对、自动合成技能库、并行集成推理等特性在7项核心任务中4项成功率追平甚至超越人类专家在鲁棒性和真实世界迁移能力上表现亮眼。参考英伟达给机器人装上龙虾大脑具身智能的Harness来了

MIAOYUN | 每周AI新鲜事儿 260403

最新文章

EF Core 10向量搜索扩展仅支持.NET 8+？不！这3种降级兼容方案已被头部金融客户验证上线

从Kaggle竞赛到工业落地：MATLAB环境下XGBoOST调参的实战避坑指南

保姆级教程：用Python和LQR从零实现自动驾驶横向控制（附MATLAB代码对比）

别再自己搭文件服务器了！Spring Boot整合阿里云OSS，5分钟搞定图片上传功能

高德/百度地图API实战：如何用AOI数据给你的POI打上“商圈”标签？

架构师视角：vue-office在企业级文档预览系统中的技术实现与优化策略

推荐文章

相关文章

分享文章

更多文章

Claw 家族全景图：OpenClaw 及其衍生项目优势对比

Go语言的未来发展：趋势与展望

爆款标题到底是什么？你可能一直没搞懂

Windows本地语音转文字终极指南：让电脑自动记录一切

CppJieba中文分词架构深度解析与实战指南

避坑指南：解决Gazebo模型贴图不显示的5个常见问题（以aruco.png为例）

别再卷大模型微调了！2026必学OpenClaw AI Agent，从入门到自动化落地全实战

突破Cursor Pro限制：3步实现AI编程助手无限使用完全指南

收藏 | AI新手必看：掌握事件驱动架构，释放大模型Agent的无限潜能！

PD 2.0 与 PD 3.0 深度解析：从固定档位到 PPS 精细化供电的技术演进

HagiCode Soul 平台技术解析：从需求萌发到独立平台的演进之路陕

LangChain 从入门到企业级 AI 应用开发