A Gift from the Integration of Discriminative andDiffusion-based Generative Learning: BoundaryRefi

张开发
2026/5/3 12:11:54 15 分钟阅读
A Gift from the Integration of Discriminative andDiffusion-based Generative Learning: BoundaryRefi
1判别式学习擅长捕获低频大尺度语义特征却难以精准学习高频特征扩散生成学习能有效捕获高频特征但语义特征推理精度不足。2人工标注的语义分割图基本无图像噪声其高频信息主要集中在语义边界区域3基于CNN和Transforner的模型都倾向关注图像低频分量导致边界信息和细粒度语义建模不足4边界损失设计且固有问题1.边界损失优化具有局部性与后验性仅在模型当前预测附近操作本质是对现有输出的局部优化2.边界损失与区域损失的梯度冲突压制边界相关信号造成训练不稳定5分割图高低频分量的推理对应两类不同问题扩散模型比判别式模型在边界区域精修上优势显著6IDGBR框架1.条件引导网络零卷积层捕获局部关联交叉注意力层捕获全局关联2.基于表征对齐的正则化策略在训练前期提出基于表征对齐的正则化策略3.DINOv2作为语义锚点无标注数据自蒸馏学习到通用语义表征1.视觉表征提取2.扩散表征对齐7训练与推理1.标签编码:扩散模型通常假设输入数据连续与语义分割的离散标签冲突。因此设计并预训练浅层标签编码器E e. 解码器D e由两层1×1的卷积层组成2.噪声调度策略采用DDIM调度器设置噪声参数线性增长为强化UDGBR在高噪声阶段的语义感知能力训练时采用三次时间步采样策略3.联合训练目标Stable Diffusion v1.5 提出双分支联合优化策略。损失函数标准均方误差 表征对齐误差前500训练步设置λ0.5引入语义对齐后续为0避免持续对齐信号感染分割学习。8推理阶段首先标准高斯分布采样初始噪声去噪网络逐步逆向扩散过程DDIM采样器恢复无噪声语义嵌入将无噪声语义嵌入输入标签解码器得到类别预测图9数据集《二分类》与《多分类》二分类CHN6-CUG、FGFD、WHU多分类Potsdam、Vaihingen10对比实验1.卷积神经网络DeepLap3、面向遥感优化任务的大核 CNN LSNet2.TransformerSegFormer3.自监督基础模型冻结DINOv2权重作为视觉编码器4.IDGBR 批量大小 4固定学习率 1e-5训练 80000 次迭代推理 25 步无分类引导权重 3。11遥感语义分割现有主流指标IoU、平均F1、AP、AUC。本文引入边界敏感评价指标加权F值WFm12判别式模型处理复杂道路场景存在三大典型缺陷高频边缘分割精度不足、复杂道路网络拓扑结构描绘不完整、道路网络结构连通性保留不足。13适用性与局限性完全修复可通过语义临接关系近似推断完整信息如矫正误分斑块、修复道路碎片、规整边界部分修复正确区域仅能通过语义邻接关系推断局部信息校正局部语义如道路纵向连通但宽度恢复不足、局部集合精修但未语义校正14早期对齐策略加速表征学习最优配置为λ0.5结合早期停止策略验证对齐机制作为初始引导、利用先验知识加速收敛的最佳作用方式。15WFm边界容忍阈值的影响1.1/3/5像素三种边界2.结果显示阈值提升WFm整体上升3.IDGBR 在所有阈值下均保持稳定精度提升提升幅度波动小说明框架对边界容忍度变化不敏感在不同边界阈值下均具备稳定的边界优化能力。16结论未来工作可探索两大方向一是条件扩散模型推理依赖多步迭代采样虽大幅提升分割质量但增加计算开销与推理时延需在保证分割精度的前提下研发更高效的采样策略二是方法在部分场景的优化效果依赖提示信息完整性未来可进一步探索多粒度空间提示与语言引导的协同作用提升复杂场景下的优化鲁棒性与分割精度。

更多文章