新書推薦:

《
女性曼陀罗心理成长涂画书
》
售價:HK$
75.9

《
晚清困局:同治中兴的权力博弈与秩序重建
》
售價:HK$
85.8

《
BeamDojo原理与应用实践:构建具身智能系统
》
售價:HK$
119.9

《
混沌与秩序Ⅲ:人工智能时代企业成长之道
》
售價:HK$
96.8

《
新文化运动中的杜威——“实用主义”的变奏
》
售價:HK$
82.5

《
世界两栖战舰和两栖作战百科全书
》
售價:HK$
437.8

《
藩镇时代
》
售價:HK$
107.8

《
时间的朋友
》
售價:HK$
64.9
|
| 內容簡介: |
|
图像融合是视觉感知领域中一个基础而关键的问题,旨在整合多幅源图像中的重要信息,生成单幅更加全面且准确描述场景内容的融合图像。《图像融合的深度学习方法》介绍一系列基于深度学习的多模态、数字摄影及遥感图像融合的方法,挖掘多种图像融合任务的特点及共性,并探索图像融合技术在下游视觉任务中的重要作用。*先,针对多模态图像融合任务,介绍两种典型的红外-可见光和医学图像融合方法;其次,针对数字摄影图像融合任务,分别介绍有代表性的多曝光和多聚焦融合方法;然后,介绍两种多光谱与全色图像融合方法;接着,考虑各类图像融合任务的共性,介绍两种无监督的统一图像融合方法;*后,针对图像融合技术在实际应用中面临的挑战,介绍三种兼顾图像配准与语义感知的图像融合方法。扫封底二维码可查看《图像融合的深度学习方法》彩图资源。
|
| 目錄:
|
|
目录第1章 绪论 11.1 图像融合问题的定义与任务分类 21.1.1 图像融合问题的定义 21.1.2 图像融合的任务分类 21.2 基于深度学习的图像融合框架 51.2.1 基于自编码器的图像融合框架 51.2.2 基于卷积神经网络的图像融合框架 61.2.3 基于生成对抗网络的图像融合框架 61.3 图像融合数据集与评估指标 61.3.1 图像融合数据集 61.3.2 图像融合评估指标 9第2章 多模态图像融合 162.1 基于生成对抗网络的红外和可见光图像融合 172.1.1 概述 172.1.2 实验结果与分析 212.1.3 讨论与展望 302.2 基于无监督信息保留增强的医学图像融合 312.2.1 概述 312.2.2 方法设计 322.2.3 实验结果与分析 362.2.4 讨论与展望 42第3章 数字摄影图像融合 443.1 基于生成对抗网络与自适应梯度联合约束的多聚焦图像融合 443.1.1 方法设计 453.1.2 实验结果与分析 483.1.3 讨论与展望 563.2 基于本征图像分解的多曝光图像融合 583.2.1 方法设计 593.2.2 实验结果与分析 643.2.3 讨论与展望 77第4章 遥感图像融合 794.1 基于生成对抗网络的无监督多光谱与全色图像融合 794.1.1 方法设计 814.1.2 实验结果与分析 854.1.3 讨论与展望 924.2 基于尺度迁移学习与光谱观测模型估计的多光谱与全色图像融合 934.2.1 方法设计 954.2.2 实验结果与分析 1044.2.3 讨论与展望 120第5章 通用图像融合 1225.1 统一无监督图像融合 1225.1.1 概述 1225.1.2 方法设计 1245.1.3 实验结果与分析 1305.1.4 讨论与展望 1395.2 基于 SwinTransformer与跨域长距离学习的通用图像融合 1405.2.1 概述 1405.2.2 方法设计 1415.2.3 实验结果与分析 1455.2.4 讨论与展望 158第6章 兼顾图像配准与高级语义的图像融合 1596.1 互促进的多模态图像配准与融合 1596.1.1 概述 1596.1.2 方法设计 1616.1.3 实验结果与分析 1686.1.4 讨论与展望 1816.2 基于渐进语义注入的红外与可见光图像融合 1836.2.1 概述 1836.2.2 方法设计 1856.2.3 实验结果与分析 1906.2.4 消融实验分析 2006.2.5 讨论与展望 2026.3 语义感知的图像配准与融合 2036.3.1 概述 2036.3.2 方法设计 2046.3.3 实验结果与分析 2116.3.4 消融实验分析 2176.3.5 讨论与展望 220参考文献 221
|
| 內容試閱:
|
|
第1章绪论 随着传感器技术的迅速发展和广泛普及,图像的采集与传输更加便捷和高效,作为*直观且*重要的信息表达方式,图像在现代科学和技术领域中扮演着越来越重要的角色。然而,各类型或不同成像设置的传感器受其固有光学特性的制约,只能捕获特定频段或范围的信息进行成像。因此,单一类型或单一拍摄设置下的传感器捕获的图像只能表征场景的部分信息,无法对场景做出准确而全面的描述。随着多类型传感器的出现及相关制作工艺的进步,多模态图像的成像质量得到了大幅度提升,人们能够高效地获取多样化的场景信息。此外,通过改变数码成像设备的成像设置,能够便捷地获取一系列具有不同曝光水平或景深的图像,为全面表征成像场景提供了可能。在此背景下,依靠单模态或单一拍摄设置传感器捕获单一图像的信息采集方式逐渐向利用多类型/多拍摄设置传感器捕获多源图像的综合采集方式演进。通过有效地获取场景的多类型信息,人类及机器对场景的理解和感知可以得到显著增强。 由于多类型/多拍摄设置传感器对同一场景进行信息捕获,多源图像具有互补性的同时,不可避免地存在大量冗余信息。若对多张图像分别进行处理,忽略信息间的交互关系和互补性,不仅浪费存储空间,还会导致计算成本和处理时间的消耗,且多张图像间的相对位置关系难以得到直观体现。*重要的是,由于各种模态或拍摄设置捕获的信息间缺乏必要交互,无法将多类型特有信息结合,这将极大程度地限制人或机器对场景的感知和分析能力。 因此,图像融合(image fusion)任务应运而生,其目的在于整合多张源图像中包含的重要和互补信息,融合生成单张符合视觉感知且信息量更丰富的融合图像。融合图像能更加全面且准确地描述场景内容,从而帮助人或机器更好地理解场景和完成决策(黄渝萍等,2023;唐霖峰等,2023;Zhang et al,2021d)。目前,图像融合技术在军事侦察(Muller et al,2009)、辅助医疗诊断(张敏等,2011)、数码摄影(Zhang,2021a,2021b)、卫星遥感勘测(Ma et al,2020c;Zhang,2010)、自动驾驶(Zhang et al.,2022)等众多领域发挥着越来越重要的作用,如何更有效地融合多模态图像中的互补信息,更全面地对成像场景进行表征已经成为新的研究热点。 通常而言,根据成像设备或拍摄设置的差异,图像融合主要包括多模态图像融合、数字摄影图像融合和遥感图像融合三大类。本书*先针对这三大类图像融合任务分别展开研究,然后考虑各类图像融合任务具有一定的相关性且有望实现相互促进的特点,进一步研究通用图像融合框架,*后结合图像融合任务的实际需求,研究兼顾图像配准与高级语义的图像融合算法。 1.1图像融合问题的定义与任务分类 1.1.1图像融合问题的定义 正如前面所提到的,由于成像设备硬件限制,单一类型或单一设置下的传感器通常无法全面表征成像场景(Zhang,2021b;Liu et al,2018b)。 例如,可见光图像通常包含丰富的纹理细节信息,但是却容易遭受极端环境和遮挡的影响而丢失场景中的目标。与之相反,红外传感器通过捕获物体散发的热辐射信息成像,能够有效地突出行人、车辆等显著目标,但是缺乏对场景的细节描述(唐霖峰等,2023;Ma et al.,2019a)。此外,具有不同ISO(International Organization for Standardization,国际标准化组织)和曝光时间的相机只能捕捉在其动态范围内的场景信息,不可避免地丢失动态范围之外的信息(王磊等,2023)。值得注意的是,不同类型或不同光学设置下的传感器通常包含大量互补信息,这也启发人们将这些互补信息集成到单一的图像中(黄渝萍等,2023;唐霖峰等,2023;Zhang,2021b)。具体而言,给定两幅来自不同传感器或不同设置下拍摄的图像,基于深度学习的图像融合方法旨在利用神经网络来生成一幅充分包含两幅源图像中互补信息的融合图像。融合过程通常遵循“特征提取—特征融合—图像重建”三步走的策略,即*先利用特征提取器(编码器)从源图像中提取深度特征,然后使用特定的融合策略融合这些特征,*后利用图像重建模块(解码器)生成最终的融合图像。因此,图像融合过程可以被概括为: (1?1) 式中:E和D分别表示编码器和解码器;Fusion通常表示特定的融合策略。此外,这三个步骤也可以集成在一个融合网络中,即隐式地实现特征提取—特征融合—图像重建这三个步骤,该过程可以表示为: (1?2) 式中:N表示融合网络。 1.1.2图像融合的任务分类 根据成像设备的差异,图像融合通常可以分为三类,即多模态图像融合、数字摄影图像融合和遥感图像融合。其中红外和可见光图像融合及医学图像融合是典型的多模态图像融合任务,多曝光图像融合(multi-exposure image fusion,MEF)和多聚焦图像融合(multi-focus image fusion,MFF)则是典型的数字摄影图像融合任务,遥感图像融合主要包括多光谱与全色图像融合任务。图1-1展示了不同类型图像对的特点。接下来具体介绍每一类图像融合任务的特点。 由于成像原理的限制,单一类型的传感器只能捕获部分场景信息。可见光与红外传感器是*为常用的两类成像传感器。可见光传感器模拟人眼对可见光信息的感知和图像形成过程,通过捕捉场景的反射光信息成像,其工作波长为380~780nm,所成的可见光图像质量高,纹理及细节丰富,符合人眼对场景的理解和感知。然而,如图1-1(a)所示,当场景光线条件差时,传感器难以捕获场景的反射光信息,造成可见光图像中的大量信息丢失。与之互补的是,红外传感器通过探测场景中的热辐射信息成像,其常见的工作波长为8~14μm,场景或目标的温度越高,在红外图像中呈现的像素强度越高,因此红外图像在凸显行人、车辆等热目标方面表现出*特优势,其成像原理使红外成像受光照条件及遮挡的影响小,环境适应性强,可以实现全天候成像。但相较于可见光图像,红外图像通常缺乏具体的细节信息且噪声严重。 与之类似,在医学成像中,多模态医学图像通常关注不同类别的信息,根据成像技术可分为功能信息和结构信息(Tang et al,2022a)。例如,正电子发射断层扫描(positron emission tomography,PET)图像是典型的功能图像,如图1-1(b)所示,PET图像可以表征肿瘤和代谢,但分辨率较低。如图1-1(b)所示,磁共振成像(magnetic resonance imaging,MRI)图像作为典型的结构图像通常能够提供软组织信息。此外,结构图像还包括计算机断层扫描(computed tomography,CT)图像,CT图像能够检测致密结构(例如骨骼和植入物)。结构图像通常具有较高的分辨率,但无法反映脏器的功能情况。多模态图像融合旨在将多个传感器捕获的有用信息整合到单幅的融合图像中以实现对场景有效且全面的表征。 由于光学器件的限制,数码相机通常无法在单一设置下捕获成像场景中的所有信息。具体来说,如图1-1(c)所示,同一场景中物体的亮度差异可能会较大,也就是亮度的动态范围大。但传感器往往只能在非常有限的亮度范围内清晰成像,这就导致单一设备拍摄设置下获取的图像存在曝光不当的区域。此外,如图1-1(d)所示,数字单镜头相机无法捕捉到所有物体都聚焦的图像。根据摄像机的设置,只有在景深(depth-of-the-field,DoF)内的物体表现出清晰的外观,而景深外的物体的外观是模糊的。 通过调整数码相机的曝光设置或者聚焦区域,能够便捷地获得一系列的多曝光或多聚焦图像,这些图像通常能够清晰地表征特定区域的场景信息。多曝光图像融合和多聚焦图像融合作为数字摄影图像融合中典型的任务能够将不同设置下拍摄的图像进行融合并生成高动态范围、全聚焦的融合图像。 在保证信噪比的前提下,光谱与瞬时视场(instantaneous field ofview,IFOV)是相互矛盾的(Zhang,2021b)。这意味着,仅依靠一种传感器无法同时捕获高空间分辨率、高光谱分辨率的图像。如图1-1(e)所示,全色图像是单通道的,因此只能以灰度图片展示。其中全色是指全部可见光波段0.38~0.76μm,全色图像为这一波段范围的混合图像。全色遥感图像一般空间分辨率高,但无法显示地物色彩,即图像的光谱信息少。 多光谱图像通过捕获地物辐射中多个单波段的信息成像,得到的图像数据中会有多个波段的光谱信息。若取其中RGB三个波段的信息显示,就是RGB彩色图像。由于光谱信息其实也对应了色彩信息,所以多波段遥感图像可以得到地物的色彩信息,但是多光谱图像的空间分辨率比全色图像低。此外,随着光谱通道增加,多光谱图像分辨物体的能力越强,即光谱分辨率越高。 遥感图像融合旨在将空间分辨率和光谱分辨率不同的图像进行融合得到一幅高空间分辨率和高光谱分辨率兼备的融合图像。多光谱与全色图像融合是*具有代表性的遥感图像融合场景。从源图像的成像角度来看,遥感图像融合也属于多模态图像融合。但是遥感图像融合相较于多模态图像融合需要更高的空间和光谱保真度来提升分辨率。因此本书将遥感图像融合作为一个*立的范畴来讨论。 图1-2提供了不同融合图像任务的融合场景示意图。观察该图可以发现融合图像能够吸收源图像中的互补特性并具有更好的场景表达和视觉感知效果,从而能够有效地促进诸如目标检测(Cao et al.,2019)、语义分割(Tang et al.,2023b)、场景感知(Zhang et al.,2005)、临床诊断(Guo et al,2019)、遥感监测(Simone et al.,2002)等实际计算机视觉应用。 1.2基于深度学习的图像融合框架 近年来,深度学习以其强大的特征提取和表达***导了计算机视觉领域的发展并在诸如图像分类(Huang et al.,2017;He et al.,2016)、目标检测(Redmon et al,2016;Ren et al.,2015)、语义分割(Chen et al.,2018;Romneberger et al.,2015)等视觉任务上展现了显著的性能优势。为了克服传统算法的不足,图像融合领域的研究者也探索了大量基于深度学习的图像融合算法。现有基于深度学习的图像融合算法主要致力于解决图像融合中3个关键的问题:特征提取、特征融合和图像重建。根据采用的网络架构不同,基于深度学习的图像融合算法可分为基于自编码器(auto-encoder,AE)的图像融合框架、基于卷积神经网络(convolutional neural network,CNN)的图像融合框架和基于生成对抗网络(generative adversarial network,GAN)的图像融合框架3类。图1-3展示了这3类图像融合框架的整体流程。 1.2.1基于自编码器的图像融合框架 基于自编码器(AE)的图像融合框架遵循典型的“特征提取—特征融合—图像重建”三步走的融合策略。这类方案*先在大型数据集,例如MS-COCO数据集(Lin et al,2014)、ImageNet数据集(Deng et al.,2009)上预训练一个自编码器,用来实现特征提取和图像重建。然后采用手工设计的融合策略来整合从不同源图像中提取的深度特征以实现图像融合(Li et al,2020b,2018a),然而这些手工设计的融合策略并不一定适用于深度特征,从而限制了基于AE的融合框架的性能。 1.2.2基于卷积神经网络的图像融合框架 基于卷积神经网络(CNN)的图像融合框架通过设计网络结构和损失函数来实现端到端的特征提取、特征融合和图像重建,从而避免手动设计融合规则的烦琐(Ma et al.,2021b)
|
|