1、LLaVA 系列

张开发
2026/5/5 3:21:00 15 分钟阅读
1、LLaVA 系列
LLaVA 系列详解从 Visual Instruction Tuning 到 LLaVA-1.5 与 LLaVA-NeXTLLaVALarge Language and Vision Assistant是一类开源视觉语言助手模型核心贡献是把语言模型的指令调优instruction tuning推广到图文多模态指令调优Visual Instruction Tuning给定一张图片和自然语言指令模型能够像聊天助手一样进行回答、描述并在一定程度上完成视觉推理与基于图像的复杂问答。从整体发展脉络看LLaVAv0/v1用 GPT-4纯文本合成大规模图文指令数据158K把 CLIP 视觉特征对齐到 Vicuna 的词向量空间实现端到端多模态对话。LLaVA-1.5在“连接器极简”的前提下换用更高分辨率视觉编码器CLIP ViT-L/336引入轻量 MLP 连接器并大幅扩充公开指令数据~1.2M实现全面的 benchmark 提升与更强的任务泛化。LLaVA-NeXTv1.6围绕分辨率/Token 数、数据混合与训练阶段做系统化消融提出 Stage-1.5高质量知识学习等策略同时强调LLM 规模对多模态能力的关键作用在 OCR、图表、推理等任务上显著增强。1. LLaVA为什么重要1.1 背景多模态从“单任务”走向“指令跟随”在 LLaVA 之前多模态模型常见形态大致是图 → 文例如 captioning把图片变成一句/一段描述问 → 答例如 VQA输入图片和问题输出一个答案少量固定模板对话能问几类问题但很难像聊天助手那样自然、多轮、可控。而语言模型如 GPT-3 / Vicuna / LLaMA 系在文本域已经证明通过指令调优可以显著提升“像助手一样完成任务”的能力。LLaVA 的关键点在于把这一范式带到多模态里让模型不仅能“看图说话”还能“按指令做事”。1.2 一句话概括能力给定图片 自然语言指令LLaVA 能做多轮对话式问答询问物体、关系、动作、属性、位置等输出细致的长文本描述在需要时尝试多步推理以图像内容为依据1.3 直观案例同一张图的三种任务设想一张 COCO 风格图片地下停车场一辆 SUV三个人正在把行李装进车里地上散落着背包和行李箱旁边还有一辆自行车。对话Conversation用户这是什么车模型一辆黑色 SUV。用户车停在哪里模型停在地下停车场像是公共车库。用户人们在做什么模型他们在把行李装进车里像是准备出行。详细描述Detailed Description用户请详细描述这张图。模型会按场景、人物、物体、空间关系给出长段落描述包含人物站位、行李分布、周围车辆等细节。复杂推理Complex Reasoning用户他们可能要去做什么为什么模型需要结合“多人协作装行李 多个行李箱/背包 地下停车场”推断“可能准备旅行/搬家/出行”并给出理由链。2. LLaVA 的方法数据、架构、训练LLaVA 的方法可以用一句话概括把图片转成可对齐的视觉 token拼接到文本 token 前直接让大语言模型做自回归生成再用大规模图文指令数据做微调让它学会多模态指令跟随。2.1 多模态指令数据生成为什么能用“纯文本 GPT-4”做图文数据关键难点在于早期LLaVA 论文阶段GPT-4 本身并不能直接看图。LLaVA 的做法是把图像信息“语言化”后交给 GPT-4 生成指令与回答。给定图像XvX_vXv​以及其元信息caption、边界框等构造文本化描述作为上下文让 GPT-4 在这个文本化世界里扮演“看见图片的助手”。2.1.1 基础扩展把图文对扩成指令格式从已有图文对数据比如 COCO captions、CC3M 等出发图像XvX_vXv​字幕/标题XcX_cXc​最简单的指令化形式是HumanXqX_qXq​XvX_vXv​AssistantXcX_cXc​但这种方式的问题是指令与回答缺少多样性也难覆盖推理、细粒度定位等能力。2.1.2 强化用 Caption Bounding Boxes 让 GPT-4 生成更丰富指令LLaVA 使用两类信息把图片“文字化”Caption多角度描述场景语义Bounding Boxes把物体概念与空间位置编码为文本例如“person at (x1,y1,x2,y2)”。然后为 GPT-4 设计少量“种子示例”in-context learning让它生成三类数据对话 Conversation多轮问答覆盖物体类别、数量、动作、位置、相对关系等。详细描述 Detailed Description一次性输出更全面、结构化、细节丰富的描述。复杂推理 Complex Reasoning在对话/描述基础上引导提出更需要逻辑推理的问题与回答。最终得到约158K的多模态指令样本成为 LLaVA 的核心视觉指令调优数据来源之一。2.2 模型架构CLIP 连接器 Vicuna 的极简组合LLaVA 的架构非常“朴素”冻结视觉编码器用一个投影层把视觉特征对齐到语言模型的嵌入空间再把视觉 token 当作“前缀 token”拼到文本前让 LLM 继续做它最擅长的自回归生成。2.2.1 视觉编码器从图像得到视觉特征输入图像XvX_vXv​通过预训练的 CLIP Vision Encoder例如 ViT-L/14得到视觉特征Zvg(Xv) Z_v g(X_v)Zv​g(Xv​)其中g(⋅)g(\cdot)g(⋅)是视觉编码器ZvZ_vZv​是图像特征序列或特征图的展平表示具体形态取决于实现。2.2.2 视觉-语言连接器把视觉特征映射到词向量空间用一个可训练的投影矩阵WWW把视觉特征映射到语言模型的词嵌入空间得到视觉 tokenHvW⋅Zv H_v W \cdot Z_vHv​W⋅Zv​其中HvH_vHv​的维度与语言模型的 token embedding 维度一致这样HvH_vHv​就能像“伪文本 token”一样被 LLM 接收。2.2.3 拼接输入视觉 token 文本 token将视觉 tokenHvH_vHv​与文本指令 token问题等拼接形成 LLM 的输入序列语言模型生成回答XaX_aXa​。从建模角度这相当于让语言模型学习条件生成P(Xa∣Xv,Xq) P(X_a \mid X_v, X_q)P(Xa​∣Xv​,Xq​)2.3 训练两阶段策略对齐预训练 → 指令微调LLaVA 训练分两步目的是先让视觉 token “进入语言空间”再让模型学会“按多模态指令回答”。2.3.1 阶段 1特征对齐预训练只训练连接器目标在冻结视觉编码器与 LLM 的情况下仅训练投影层WWW让模型能用视觉 token 辅助生成与图像匹配的文本例如 caption。训练数据从 CC3M 等筛选得到的图文对构造成简单指令格式例如“简要描述图片”。训练目标最大化正确文本XaX_aXa​的对数似然标准自回归目标但仅对回答部分计算损失。2.3.2 阶段 2端到端视觉指令微调训练连接器 LLM目标在高质量的多模态指令数据如 158K GPT-4 合成数据 其它公开数据上训练使模型具备多轮对话、长答案、复杂问答能力。若把多轮对话组织成一个序列包含若干轮问答设整个输出 token 序列长度为LLL自回归形式为P(Xa)∏i1LP(xi∣Xinstruct,i,Xa,i,Xv) P(X_a) \prod_{i1}^{L} P(x_i \mid X_{instruct,i}, X_{a,i}, X_v)P(Xa​)i1∏L​P(xi​∣Xinstruct,i​,Xa,i​,Xv​)其中xix_ixi​是第iii个要预测的 tokenXinstruct,iX_{instruct,i}Xinstruct,i​表示第iii个 token 之前的所有指令 tokenXa,iX_{a,i}Xa,i​表示第iii个 token 之前的回答 tokenXvX_vXv​经连接器后的视觉 token作为条件贯穿整个生成过程。训练时通常只对 assistant 的回答 token以及终止符计算损失让模型把“输出什么”聚焦在回答上。3. LLaVA 的实验与现象为什么它看起来像“多模态 ChatGPT”3.1 LLaVA-Bench用 GPT-4 当裁判的评测方式LLaVA 提出 LLaVA-Bench包含两类数据COCO 子集30 张图90 个问题In-the-Wild 子集24 张图60 个问题问题覆盖三类能力对话、详细描述、复杂推理。评测方式是让 GPT-4 作为评判者做相对打分与其它基线对比。3.2 定性结果从“只会描述”到“能按指令解释”典型对比现象BLIP-2、OpenFlamingo 往往更擅长输出“描述性文本”但面对“带约束的指令”或“多步推理要求”时容易变得模板化LLaVA 由于直接继承了 Vicuna 的对话能力与指令遵循能力在回答风格、长文本组织、互动性上更像聊天助手。3.3 ScienceQA多模态推理任务中的提升在 ScienceQA 这类包含图文上下文的多模态问答上LLaVA 展示了单模型即可达到很高准确率结合 GPT-4作为评判或协同组件还能进一步提升4. LLaVA-1.5在不改“核心框架”的前提下性能大幅跃迁LLaVA-1.5 的策略非常明确保持 LLaVA 的极简架构哲学主要通过三件事提升能力更强的视觉输入更高分辨率更强的连接器线性 → 轻量 MLP更合适的数据混合从 158K 扩展到 ~1.2M加入学术 VQA/OCR/区域感知任务4.1 架构变化CLIP ViT-L/336 MLP Connector整体仍是image → vision encoder → connector → LLM不同点视觉编码器改为CLIP ViT-L/336px输入分辨率更高336×336细节更清晰连接器从单层线性映射升级为多层 MLP常见描述是 2 层或 4 层版本增强跨模态表示能力。4.2 高分辨率与 AnyRes/分块策略为什么“更清晰”能减少幻觉当输入分辨率提升时模型能看到更细粒度的局部线索例如小字、细小物体、局部关系从而减少“看不清导致的编造”。LLaVA-1.5 进一步提出高分辨率版本如 LLaVA-1.5-HD核心思想是把图像切成多个块分别编码再把特征合并并额外保留一个下采样的全局特征用于提供全局上下文减少分块造成的伪影。直观案例OCR/细节低分辨率下路牌上写的是 “STOP” 还是 “SLOW” 容易混淆模型可能“猜”高分辨率 分块编码字符边缘更清晰模型更可能读对从而减少无依据的回答。4.3 响应格式提示让模型学会“短答/长答切换”很多 VQA 数据期望短答案一个词/短语而对话/推理数据期望长答案。如果训练提示模糊例如统一用 “Q: … A: …”模型可能倾向于输出短答或在该短答模式上过拟合。LLaVA-1.5 的关键做法是在数据中加入明确的格式指令例如“用一个词或短语回答问题”“直接从给定选项中选择答案字母”这样模型在训练中学会把“输出格式”也当作指令的一部分从而提升跨任务泛化。4.4 数据策略从“合成对话”走向“学术任务混合”LLaVA-1.5 引入大量公开任务数据覆盖通用 VQAVQAv2、GQA知识 VQAOKVQA 等OCR 类TextVQA/OCRVQA 等区域级Visual Genome、RefCOCO以及 ShareGPT 文本对话数据增强对话风格与指令遵循这类混合的直接效果是模型既能保持“像助手一样对话”又能在学术基准上显著提升VQA/OCR/推理等4.5 训练与成本强调“可复现与效率”LLaVA-1.5 报告的训练形态通常仍是两阶段对齐预训练让 connector 学会把视觉表示映射到语言空间视觉指令调优用多源指令数据让 LLM 学会多模态任务在工程上它强调参数改动小连接器很轻量训练周期相对可控例如 8×A100 级别一天内复现 13B 版本5. LLaVA-NeXTv1.6系统化回答“提升多模态能力到底靠什么”LLaVA-NeXT 的核心价值在于它不只“堆数据/堆分辨率”而是通过大量消融实验系统讨论影响视觉指令调优效果的关键因素并提出更稳定的训练配方包括 Stage-1.5。5.1 关键结论 1LLM 规模很关键一个非常重要的经验规律是在很多多模态任务上更大的语言模型能带来更强的整体能力。原因并不神秘多模态任务不仅是“看清楚”还包含大量语言知识、常识、推理结构与表达组织视觉特征只提供证据如何组织证据并输出合理解释很大程度依赖 LLM 的语言能力与知识储备。现象通常表现为LLM 越大整体分数越高训练越稳定但往往需要更小学习率来避免震荡小模型在某些设置下反而更依赖小 batch 或更强正则5.2 关键结论 2视觉输入配置分辨率、token 数比“换大视觉骨干”更直接在视觉侧LLaVA-NeXT 强调性能与输入配置分辨率、token 数的相关性很强仅仅换更大的视觉编码器不一定比“合理增加 token/分辨率”更划算直观理解OCR、图表、细粒度关系任务更需要局部细节 → 更高分辨率/更多 token 更有效但 token 过多会显著增加训练与推理开销因此需要控制上限。5.3 Higher-AnyRes优先扩分辨率同时控制 token 成本Higher-AnyRes 的直觉是尽量让模型看到更高分辨率的图但通过插值/池化等策略控制最终 token 数避免成本爆炸。如果用网格切分表示把图像切成a×ba \times ba×b个块再加一个全局块那么 token 数大致与ab1ab1ab1成正比。为了控制 token 上限ttt可以采用阈值策略把 token 控制在一个预算范围内核心目标是“更多细节但不让 token 无限制增长”。这一类策略在实际表现上往往是对细节任务OCR、长图文、长视频提升更明显且在 LLM 规模增大时视觉提升仍能持续转化为能力提升5.4 Pooling 与投影位置细节决定上限当特征图很大时必须做下采样以适配 LLM 的上下文预算。实践中常见结论是双线性插值往往比简单的平均池化更保留结构信息在“投影到语言空间”前后做 pooling 的效果可能不同很多设置下“投影后再 pool”更稳直观解释投影层把视觉特征映射到语言嵌入空间若先在视觉空间粗暴 pool可能丢失对 LLM 更有用的细粒度线索而在投影后再做尺度调整有时更利于保留“对语言推理友好”的信息。6. 三阶段训练范式Stage-1 → Stage-1.5 → Stage-2LLaVA-NeXT 把训练流程拆得更细并强调中间阶段的重要性6.1 Stage-1语言-图像对齐目标让视觉 token 能被 LLM“读懂”。常见做法是冻结大部分模块仅训练连接器或使用较轻量的更新。结论倾向数据质量往往比数据数量更关键精选的高质量图文对齐数据能明显提升后续指令微调效果6.2 Stage-1.5高质量知识学习关键新增目标在进入大规模视觉指令微调之前先注入更高质量、知识密度更高的训练信号提升模型的可迁移推理与表达能力。典型做法之一是重描述re-caption用更强的多模态模型生成更高质量、更细粒度的图像描述用这些“高质量描述数据”对模型做全模型训练作用类似于先把视觉-语言“知识通道”打通再去学各种任务指令直观案例同一张图普通 caption只说“一个人和一辆车在停车场”重描述 caption会补充人物动作、物体关系、空间布局、细节线索后者对推理/对话的价值更高因为它提供了更丰富的可用证据。6.3 Stage-2视觉指令调优Visual Instruction Tuning目标把模型塑造成“能对话、能按指令完成任务”的多模态助手。这一步通常使用混合数据对话 VQA OCR 推理 领域数据并更新更大范围参数连接器 LLM视觉编码器往往仍冻结或部分冻结。7. 组合起来看LLaVA 系列到底教会了什么7.1 极简架构也能很强关键是对齐与数据配方LLaVA 系列一直坚持一种“极简主义”不引入复杂的跨模态注意力堆叠不做繁重的端到端视觉骨干训练通过“视觉 token 前缀 自回归 LLM”的方式把问题尽量转化为 LLM 擅长的生成问题这条路线的成功说明只要视觉信息能以合适的 token 形式进入语言空间再通过高质量、多样化的指令数据进行训练就能让模型获得很强的多模态助手行为。7.2 提升优先级经验从 LLaVA → 1.5 → NeXT 的经验可以提炼成一个常见优先级明确的指令格式与高质量数据混合决定“会不会按要求输出”更合理的视觉输入配置分辨率、token 数、AnyRes、pooling决定“看得清不清”更强的语言模型底座决定“会不会推理、会不会组织语言”连接器的表达能力线性到 MLP 的小升级往往很划算

更多文章