博客
关于我
ACM MM‘24 | DCAFuse:用于多模态图像融合的双分支扩散 - CNN 互补特征聚合网络
阅读量:798 次
发布时间:2023-04-05

本文共 2274 字,大约阅读时间需要 7 分钟。

DCAFuse: Dual-Branch Diffusion-CNN Complementary Feature Aggregation Network for Multi-Modality Image Fusion

摘要

多模态图像融合(MMIF)旨在将源图像的互补特征整合到融合图像中,包括目标显著性和纹理细节。近年来,利用扩散模型的图像融合方法取得了不错的成果。尽管扩散模型有其优势,但它降低了感知局部特征的能力。此外,其固有的工作机制会给输入引入噪声,从而导致原始信息的丢失。为了解决这个问题,作者提出了一种新颖的扩散 - CNN特征聚合融合(DCAFuse)网络,该网络可以从双分支中提取互补特征并有效地进行聚合。具体来说,作者在基于扩散的分支中利用去噪扩散概率模型(DDPM)构建全局信息,在基于CNN的分支中使用多尺度卷积核对局部细节特征进行提取。之后,作者设计了一种新颖的互补特征聚合模块(CFAM)。通过为特征构建坐标注意力图,CFAM可以捕获水平和垂直方向的长距离依赖关系,从而动态地指导分支的聚合权重。此外,为了进一步提高双分支特征的互补性,作者引入了一种基于余弦相似度的新颖损失函数和一种独特的去噪时间步选择策略。大量实验结果表明,在包括红外与可见光图像融合(IVF)和医学图像融合(MIF)在内的多种图像融合任务中,作者提出的DCAFuse优于其他最先进的方法。

方法

3.1 概述

作者提出的DCAFuse利用双分支扩散 - CNN框架进行全面的多模态图像融合。以IVF任务为例,RGB通道的可见光图像与红外图像相结合,形成原始输入。

DCAFuse由基于扩散的分支和基于CNN的分支组成。在基于扩散的分支中,作者首先按照提出的时间步选择策略向中引入噪声,然后在去噪过程中提取中间特征用于全局信息建模。在CNN分支中,使用多尺度卷积核和注意力块来提取和整合局部细节特征。随后,互补特征聚合模型(CFAM)作为作者方法的一个新颖组件,生成坐标感知注意力图来捕获水平和垂直方向的长距离依赖关系,从而实现有效聚合。最终,聚合后的特征被输入到融合头中以获得融合结果。

3.2 全局信息建模

通过去噪过程,DDPM可以将全局信息封装在中间特征中。在基于扩散的分支中,作者首先通过向引入高斯噪声,得到指定时间步的噪声图像,然后从去噪U-Net中提取中间特征。根据相关研究,作者可以通过单个操作直接得到中间特征,而不是逐步添加噪声,具体如下:

其中噪声ε,方差与预定义的方差调度相关。随后,噪声图像被输入到DDPM中进行单步去噪(反向扩散)过程,如下所示:

其中ε_t表示预测的噪声,且与预定义的方差调度相关。公式(1)和公式(2)在个时间步(即t=1)执行,以全面捕获原始信息。然后,从去噪U-Net的个不同块中,作者提取多尺度中间特征,记为F_i,其中i表示不同尺度。如图3所示,从第i个块(从开始)提取的多时间步特征被连接为F_total。随后,跨时间步特征聚合器(CTFA)使用各种卷积和注意力块对F_total进行细化。细化后的特征然后被上采样到与原始输入相同的大小,记为G。最后,得到G_i,并将其输入到CTFA中进行下一次迭代,持续直到t=1。基于扩散的分支的最终输出表示为G_final。

3.3 局部细节特征提取

由于CNN具有卓越的局部感知能力,它能够捕获详细特征,这些特征是对DDPM构建的全局信息的有效补充。在基于CNN的分支中,3阶段卷积层与混合注意力块(MABs)一起用于提取多尺度特征,表示为D_i,其中i表示不同尺度。随后,多尺度特征聚合器(MSFA)逐步合并。首先,D_i被上采样以匹配原始输入的大小,然后通过MLP生成缩放因子和偏差来调制,如下所示:

其中D_i表示逐元素乘法操作。通过这个公式,多尺度局部细节特征被融合到G中。

3.4 互补特征聚合模块

作者设计了一种新颖的互补特征聚合模块(CFAM),以有效地聚合全局信息和局部细节特征。具体来说,通过生成的坐标感知注意力图,CFAM可以捕获其在多个方向上的长距离依赖关系,从而动态地调整聚合权重。图4展示了作者提出的CFAM的具体工作流程。最初,使用一个卷积层来调整通道数(即C)。然后,CFAM通过正交的1-D平均池化层提取方向感知特征图和D_x、D_y,如下所示:

其中D_x表示沿X轴(水平)方向进行平均池化,D_y表示沿Y轴(垂直)方向进行平均池化。由于D_x和D_y获得了相应方向上特征的显著性信息,作者在垂直方向上连接它们,并通过卷积层进行通道缩减,如下所示:

其中T表示转置操作,S表示通道缩减比例。之后,通过卷积层和非线性函数,得到1-D坐标感知注意力向量E_x和E_y,它们捕获了输入在沿相应空间方向的长距离依赖关系。随后,E_x和E_y被广播到相同的空间维度,进行逐元素乘法,得到坐标感知注意力图G_x。然后CFAM按照如下方式聚合D和G:

其中Aggregated Features表示聚合后的特征。根据坐标感知注意力图G_x,CFAM充分封装了双分支特征的互补属性,从而有效地聚合了全局信息和局部细节特征。最后,聚合后的特征被输入到融合头中生成MMIF结果。

实验

实验结果表明,DCAFuse在多模态图像融合任务中展现了优越的性能。如图所示,DCAFuse在IVF和MIF任务中的融合效果显著优于传统方法和其他扩散模型。作者通过详细的实验分析,验证了DCAFuse在保持图像细节的同时,有效提升了全局信息融合的质量。

转载地址:http://rvrfk.baihongyu.com/

你可能感兴趣的文章
mysql 主从互备份_mysql互为主从实战设置详解及自动化备份(Centos7.2)
查看>>
mysql 主从关系切换
查看>>
mysql 主键重复则覆盖_数据库主键不能重复
查看>>
Mysql 优化 or
查看>>
mysql 优化器 key_mysql – 选择*和查询优化器
查看>>
MySQL 优化:Explain 执行计划详解
查看>>
Mysql 会导致锁表的语法
查看>>
mysql 使用sql文件恢复数据库
查看>>
mysql 修改默认字符集为utf8
查看>>
Mysql 共享锁
查看>>
MySQL 内核深度优化
查看>>
mysql 内连接、自然连接、外连接的区别
查看>>
mysql 写入慢优化
查看>>
mysql 分组统计SQL语句
查看>>
Mysql 分页
查看>>
Mysql 分页语句 Limit原理
查看>>
MySQL 创建新用户及授予权限的完整流程
查看>>
mysql 创建表,不能包含关键字values 以及 表id自增问题
查看>>
mysql 删除日志文件详解
查看>>
mysql 判断表字段是否存在,然后修改
查看>>