面向低空经济应用的无人机遥感图像目标检测技术
1. 引言
低空经济作为以民用有人驾驶和无人驾驶航空器为主体,以载人、载货及其他作业等多场景低空飞行活动为牵引、辐射带动相关领域融合发展的综合性经济形态,正逐渐崭露头角,并成为国民经济新的增长极 [9]。当前,低空经济正处于从启动期向发展期转换的关键阶段 [25],其应用范围正以前所未有的速度向物流运输、应急救援、农业生产、城市管理以及航空测绘等多个领域拓展 [1,3,5,9,25]。无人机凭借其机动灵活的特点,能够在低空空域执行多样化任务,构建极具潜力的商业模式,为传统行业带来变革与机遇 [1,9]。
在低空经济快速发展的背景下,无人机遥感技术发挥着关键作用,尤其在获取高分辨率对地观测图像方面展现出独特优势 [16,26]。通过搭载各类传感器,无人机能够灵活高效地采集特定区域的遥感图像数据,为农业监测、环境评估、灾害应急响应、城市规划以及军事侦察等应用提供重要信息 [1,3,5,16,26,27]。无人机遥感图像目标检测技术作为从图像数据中自动识别、定位和判定特定目标的关键技术,是实现无人机智能化、自主化应用的基础 [4,22]。
然而,无人机遥感图像目标检测面临诸多挑战。
挑战类型 | 描述 |
---|---|
小目标问题 | 分辨率低、占图像比例小、特征不明显、信息量少、易丢失细节 |
复杂背景干扰 | 背景复杂动态变化、含大量干扰信息、目标与背景区分困难 |
相似度高/差异大 | 同类目标不同型号相似度高;同一目标不同视角/高度特征差异大 |
高实时性要求 | 需满足应急救援/实时监控等需求,算法计算效率要求高 |
资源受限平台部署 | 在嵌入式平台上部署时计算效率面临严峻挑战 |
然而,无人机遥感图像目标检测面临诸多挑战。首先,由于无人机飞行高度和视角的变化,图像中的目标往往分辨率较低,占整体图像比例小且特征不明显,即典型的“小目标”问题,这显著增加了检测难度 [2,4,11,17,19]。其次,无人机航拍图像背景通常复杂且动态变化,含有大量干扰信息,使得目标与背景区分困难 [11,19,22]。此外,不同型号的同类目标可能具有较高的相似度,而同一目标在不同视角和高度下呈现的特征和细节又可能大相径庭 [4,19]。对于许多低空经济应用场景,如应急救援和实时监控,目标检测还需满足高实时性的要求 [11,22],这对算法的计算效率提出了严峻挑战,尤其是在资源受限的嵌入式平台部署时 [19]。传统的基于手动特征提取的目标检测方法已难以满足当前应用需求 [3]。
鉴于无人机遥感图像目标检测技术在低空经济应用中的重要性及面临的挑战,对该领域研究进展进行系统梳理具有重要意义。本综述旨在全面回顾近年来面向低空经济应用的无人机遥感图像目标检测技术的研究现状,深入分析现有各类检测方法(特别是基于深度学习的方法)的原理、优缺点及适用场景 [8],总结当前研究领域所面临的关键问题和技术瓶颈 [2,5],并结合新兴趋势和技术进展展望未来研究方向。本综述期望为相关领域的研究人员和工程技术人员提供宝贵的参考与借鉴。
2. 低空经济与无人机遥感图像特点及挑战
其应用领域广泛,如航空旅游、应急救援、农林植保、无人机物流配送、无人机空中巡检,以及交通、文旅、医疗等关键服务。
低空经济主要应用领域 | 具体场景示例 | 无人机遥感目标检测作用 |
---|---|---|
物流运输 | 无人机配送 | 识别配送点、障碍物 |
应急救援 | 灾情侦察、通讯保障、搜救被困人员 | 定位受灾区域、识别被困人员、评估建筑物损毁 |
农业生产 | 农作物监测、病虫害识别、精准施药、产量预测 | 识别作物健康状况、病虫害区域、土地利用类型 |
城市管理 | 交通监控、违章识别、非法建筑监测、人群聚集检测 | 统计交通流量、识别违章停车、检测非法搭建、监测人群 |
航空测绘 | 地形测量、地理信息获取 | 识别地物、辅助地图制作 |
基础设施巡检 | 电力线路、石油管道、交通设施巡检 | 识别设备异常、泄漏点、路面病害、违规行为 |
环境评估 | 污染源监测、生态保护 | 识别污染源、监测生物多样性 |
航空旅游 | 航拍体验 | 场景识别、导航辅助 |
本章旨在为后续的技术综述奠定基础。首先,详细阐述低空经济的概念、内涵及构成,继而分析其发展现状与驱动因素;随后,介绍无人机遥感技术的优势及其在低空经济中的主要应用;最后,深入分析无人机遥感图像的特性以及由此给目标检测带来的挑战。
低空经济是指在1000米以下的低空空域内开展的经济活动 [9]。它以低空飞行活动为核心,融合通用航空、通信、无人机技术等多种产业形态 [25],具备高科技含量和高效益的特征 [25],被定义为国家战略性新兴产业,并已纳入政府工作报告 [15]。低空经济的构成要素多元,涵盖城市规划、农业监测、环境评估等领域 [26];其应用领域广泛,如航空旅游、应急救援、农林植保、无人机物流配送、无人机空中巡检 [9],以及交通、文旅、医疗等关键服务 [28]。具体应用案例已覆盖空域管理、低空医疗、应急通信、智慧城市、智慧农业、森林安防等多个方面 [29]。
近年来,低空经济迎来了黄金发展期 [9]。其快速发展得益于多重驱动因素。技术进步是核心驱动力——小型飞行器制造技术日益成熟且成本持续降低,导航、通信、人工智能等技术的飞速发展为低空经济的安全高效运行提供了坚实保障 [9]。同时,政策支持力度不断增强,多地政府已积极布局低空经济产业,并提及建设检测检验及适航审定基地 [15]。政策推动与技术落地共同促使低空应用迎来商用化落地,形成标杆应用案例,旨在激励更多行业融合创新、打造新的经济增长引擎 [29]。低空经济能够促进航空产业与其他产业的协同与融合,提升产业链整体附加值和经济效率,为相关产业转型升级带来新的发展机遇 [28]。
在低空经济框架下,无人机遥感技术扮演着重要角色。其优势在于高效、灵活且经济 [26],能够实现快速响应 [14,27],并获取高分辨率的实时图像与视频数据 [16,27]。在农业领域,无人机遥感应用广泛 [25],可用于病虫害防治、播种、撒肥、吊运等多功能作业 [25]。通过实时监测农作物生长状况 [16],获取植被指数、叶面积指数、叶绿素含量等信息 [16],从而判断作物生长状态、健康状况和发展趋势,为适时灌溉、施肥及病虫害防控提供科学依据 [16]。此外,还可以监测农田周边环境因素,更好地了解病虫害传播趋势,提前进行预警和防控 [16]。在应急救援方面,无人机遥感技术展现出显著价值 [14,27,30],尤其在“断路、断网、断电”等“三断”条件下 [30],可用于灾后紧急侦察、通讯保障 [30],以及获取灾区影像,辅助指挥中心判断受灾情况及次生灾害 [27]。无人机遥感技术还在空中巡检、城市规划、环境评估以及智慧城市、森林安防等领域发挥着重要作用 [9,26,29]。
然而,无人机遥感图像自身具有一些特点,给目标检测带来了显著挑战。首先,这些图像通常分辨率高、覆盖大场景 [1,3];但因无人机飞行高度的变化,同一目标在图像中往往呈现出较大的尺度变化 [3,4,18],使得目标特征和细节差异较大,从而增加了检测难度 [4]。
无人机遥感图像目标检测面临的主要挑战包括:
-
小目标问题:这是无人机遥感图像目标检测中的核心难题之一 [1,11,12,13]。小目标在图像中所占像素比例较小 [11,12],分辨率较低 [12],包含的特征信息不明显且信息量稀少 [12],容易丢失关键细节和特征 [4],导致其显著性较低 [12],从而使识别和定位变得极为困难 [12]。
-
复杂背景干扰:无人机航拍图像背景通常非常复杂 [1,3,11,12,13],极易使算法产生误检 [11]。尤其对于小目标而言,其常被复杂背景包围,极易受到背景噪声的干扰 [12]。
-
密集排列与相互遮挡:遥感图像中的目标往往密集排列 [3,18];当目标彼此靠近时,容易发生相互遮挡 [1],从而增加了算法正确识别和区分各目标的难度。
-
尺度变化显著:除因飞行高度变化导致的尺度变动外 [3,4],遥感图像中目标本身也呈现尺度多样性 [18]。这使得为自然图像设计的固定尺度目标检测方法难以直接有效适用,亟需针对多尺度问题提出解决方案。
-
数据分布不平衡:在无人机遥感图像数据集中,小目标样本数量相对较少,导致数据分布不均 [12]。这在模型训练时容易引发过拟合或欠拟合,进而影响小目标检测性能 [12]。
-
类间相似性:不同类别的目标在遥感图像中可能存在较高的相似性 [18],这增加了模型区分不同目标类别的难度。
上述特点和挑战使得直接应用为自然图像设计的深度学习目标检测方法在无人机航拍图像上的检测精度受到限制 [1,3,13],容易导致较多漏检和误检 [18]。因此,针对无人机航拍图像特性开展专门的研究和实验十分有必要 [4]。这些问题构成了面向低空经济应用的无人机遥感图像目标检测领域亟待解决的关键挑战。
3. 无人机遥感图像目标检测技术综述
本章旨在系统梳理面向低空经济应用的无人机遥感图像目标检测技术的演进脉络与当前发展现状。目标检测作为计算机视觉领域的关键任务,其核心在于准确识别图像中目标对象的类别,并确定其精确位置及边界框 [21]。随着低空经济的兴起,无人机遥感图像在城市管理、环境监测、应急响应与基础设施巡检等领域的应用日益广泛,对目标检测技术提出了更高的精度、实时性与鲁棒性要求 [24]。
在技术发展初期,目标检测主要依赖于基于手工设计的特征提取器和浅层机器学习模型构建的传统方法 [5,8]。这种方法通过提取图像的局部或全局纹理、形状、边缘等特征,并结合分类器对目标进行判别。尽管传统方法概念清晰且易于实现,但在面对无人机遥感图像特有的复杂背景、多变视角、目标尺度差异大及光照变化等挑战时,其性能受到了显著限制。手工特征的泛化能力不足,难以有效捕捉复杂多样的目标形态,同时对环境变化敏感,导致检测精度和鲁棒性难以满足实际应用需求 [3],这些局限性构成了传统方法的瓶颈,并直接推动了研究范式的转变。
近年来,随着深度学习技术的迅速发展,其在目标检测领域取得了突破性进展,展现出超越传统方法的强大能力 [5,8]。基于深度学习的目标检测算法能够通过端到端的学习方式,从海量图像数据中自动提取更具判别性和鲁棒性的深层特征,显著提升检测精度及对复杂场景的适应性 [22]。因此,基于深度学习的方法已成为当前无人机遥感图像目标检测的主流技术路线 [2]。
基于深度学习的目标检测方法按检测流程大致可分为两大类:两阶段检测器和单阶段检测器 [1,5,8,10]。两阶段方法首先生成候选区域,然后对每个区域进行分类和精细回归以追求高精度,其代表性算法包括 R-CNN、Fast R-CNN 和 Faster R-CNN [1,21]。而单阶段方法则省略候选区域生成步骤,直接从图像特征中预测目标类别和边界框,以实现更快的检测速度,其代表性算法包括 SSD 和 YOLO 系列 [1,5,10]。此外,新兴的基于 Transformer 的方法通过引入自注意力机制,在构建全局依赖和提升检测性能方面显示出巨大潜力 [8,19]。
本章将详细综述这些基于深度学习的目标检测方法在无人机遥感图像领域的应用。我们将深入分析两阶段检测器如何通过区域提议网络(RPN)和精确特征对齐机制实现高精度检测;探讨单阶段检测器如何利用一体化流程实现高效实时检测,并介绍其多尺度预测策略;同时,还将简要介绍基于 Transformer 的端到端检测范式。通过对比分析这些方法在无人机遥感图像数据集上的性能表现(如检测精度、速度及对小目标的处理能力),总结其优缺点及适用场景,并讨论当前面临的关键挑战与未来研究方向,特别是如何更好地服务于低空经济的特定需求。
3.1 传统目标检测方法
传统的遥感图像目标检测方法主要依赖于手工设计的特征提取器和分类器构建检测框架[8]。在此类方法中,核心步骤通常包括特征提取与选择、区域提议(或滑动窗口)以及分类与后处理。常见的特征提取方法包括 Haar 特征、梯度直方图特征(HOG)以及局部二值模式特征(LBP)等[8]。这些手工设计的特征旨在捕捉目标的纹理、形状或边缘等局部或全局信息。随后,这些提取的特征被输入到分类器中进行目标类别的判别,常用的分类器包括支持向量机(SVM)和 AdaBoost 等[5]。例如,HOG 特征常与 SVM 分类器结合使用,而 Haar 特征则常与 AdaBoost 分类器结合[5]。
传统目标检测方法的优势在于其概念简单、易于实现,并且在某些特定、受限的场景下能够取得较好的检测效果[8]。然而,面向低空经济应用的无人机遥感图像具有视角多变、目标尺度差异大、背景复杂、光照条件易受环境影响等特点,这使得传统方法在实际应用中面临诸多挑战和局限性。
首先,传统方法的特征提取高度依赖于人工设计和先验知识[3,8]。这种手工设计的特征往往难以充分适应和表征复杂多变的目标形态及背景环境[8],导致特征的鲁棒性和泛化能力较弱[8]。例如,当目标外观、姿态发生较大变化或存在遮挡时,固定模板或局部描述符难以有效捕捉其关键特征。
其次,传统方法对复杂背景和光照变化的敏感性较高[5]。无人机遥感图像常包含地面纹理、阴影以及不同天气条件下的光照差异等复杂因素,这些非目标区域或环境变化产生的干扰容易导致特征提取不稳定,进而影响检测的准确性。
再者,传统方法的检测精度和效率相对较低[3,19]。滑动窗口等区域提议机制计算量大,且难以精确定位目标。同时,手工设计的特征通常不具备足够的判别力来区分细微的目标差异或抑制背景干扰,这使得传统方法难以满足现代应用对高精度和实时性的要求[3],尤其在处理大规模数据集时,效率瓶颈更为突出[8]。
此外,传统方法在部署到计算资源受限的嵌入式平台(如无人机载处理单元)时存在挑战[19],这限制了其在边缘计算场景下的应用潜力。
综上所述,尽管传统目标检测方法奠定了该领域的基础,但其对手工特征的过度依赖、对复杂环境的敏感性、有限的检测精度与效率以及部署难题,使其难以有效应对无人机遥感图像目标检测的复杂性和多样性需求[3]。这些局限性直接推动了研究人员探索更为强大且自适应的目标检测技术,并为基于深度学习的方法兴起提供了驱动力。
3.2 基于深度学习的目标检测方法
近年来,随着深度学习技术的飞速发展,其在计算机视觉领域的应用取得了突破性进展,尤其在目标检测任务中展现出超越传统方法的强大能力[5,8]。基于深度学习的目标检测算法凭借其自动学习图像中复杂特征表示的能力,显著提高了检测精度和鲁棒性[5,8,22]。这使得其成为当前无人机遥感图像目标检测的主流技术路线,为低空经济的广泛应用提供了关键技术支撑[2]。
基于深度学习的目标检测方法根据其检测流程可以大致分为两大类:两阶段检测器和单阶段检测器[5,8,12]。两阶段检测器通常首先通过一个独立的网络或模块生成一系列可能包含目标的候选区域,然后对这些候选区域进行分类和精确的边界框回归,代表性算法包括 Faster R-CNN 系列[5,8]。单阶段检测器则跳过生成候选区域的步骤,直接对整个图像进行目标类别预测和边界框回归,以追求更高的检测速度,代表性算法包括 YOLO 系列和 SSD 系列[5,8,12]。除了这两类主流方法,近年来基于 Transformer 的检测方法也展现出巨大的潜力,它们通过引入自注意力机制来捕捉全局上下文信息[8,19]。
本章将深入分析这些基于深度学习的目标检测方法,重点阐述它们的核心原理、技术流程以及相对于传统方法的优势。我们将详细介绍两阶段检测器和单阶段检测器的工作机制,并讨论它们的关键技术,例如 Faster R-CNN 中的区域建议网络(RPN)和 RoI Pooling/Align 机制,以及 YOLO 和 SSD 中的多尺度预测策略。此外,也将简要介绍 Anchor-free 方法和基于 Transformer 的方法(如 DETR)的特点。最后,将对比这些方法在无人机遥感图像目标检测中的性能表现(如 mAP、FPS),总结其优缺点和适用场景,并讨论在无人机遥感,特别是面向低空经济应用场景下的目标检测所面临的挑战,如小目标检测、复杂背景干扰等,以及现有研究的改进方向。
3.2.1 两阶段检测器
两阶段检测器是深度学习目标检测领域的重要分支,以其较高的检测精度而著称。这类方法首先生成潜在的目标区域(即候选区域),然后对每个候选区域进行分类和边界框回归。其代表性算法包括早期的 R-CNN、Fast R-CNN 以及更先进的 Faster R-CNN 及其后续变体。R-CNN 作为里程碑式的工作,首次将深度学习引入目标检测,其核心思想是先通过选择性搜索(Selective Search)算法生成一系列候选区域,然后对每个区域应用卷积神经网络提取特征,最后使用支持向量机进行分类 [21]。尽管在准确性上表现出色,R-CNN 因其独立的候选区域提取和逐个区域的 CNN 特征提取过程而速度缓慢,不适合实时应用 [21]。
Faster R-CNN 在 R-CNN 和 Fast R-CNN 的基础上进行了重大改进,通过引入区域建议网络(Region Proposal Network, RPN)实现了端到端的检测流程,并显著提升了速度 [8]。Faster R-CNN 主要由两部分构成:RPN 和 Fast R-CNN 检测器 [8]。整个流程始于对输入图像使用预训练的卷积神经网络(如 VGG16、ResNet)进行特征提取,获得全局特征图 [8]。
【区域建议网络(RPN)与锚框机制】
Faster R-CNN 的关键创新在于 RPN,它取代了 Selective Search 等传统的候选区域生成方法,从而将候选区域的生成融入到深度学习框架中 [8]。RPN 在特征图上通过滑动窗口的方式,预测不同尺度和长宽比的锚框(Anchors)是否包含目标,并对包含目标的锚框进行初步的边界框回归,生成一系列高质量的候选区域 [8]。锚框机制预设了一系列具有固定尺寸和长宽比的参考框,网络预测每个位置、每个锚框的物体存在概率(objectness score)和相应的边界框偏移量 [8]。这种基于锚框的机制使得网络能够有效地捕捉不同大小和形状的目标。针对小目标检测的挑战,研究者提出了改进的锚框策略,例如自适应产生锚框的方式,引导网络利用不同深度特征图的学习,以更好地匹配目标尺寸 [6]。
【特征提取与对齐 (RoI Pooling / RoI Align)】
RPN 生成的候选区域在原始特征图上具有不同的尺寸和位置。为了送入后续的分类和回归网络(Fast R-CNN 部分),需要从特征图中提取与每个候选区域对应的特征,并将其缩放到固定尺寸。RoI (Region of Interest) Pooling 是早期的方法,它将每个候选区域划分为固定数量的网格,并对每个网格内的特征进行最大池化或平均池化。然而,RoI Pooling 存在量化误差,尤其是在处理小目标时可能导致精度下降。RoI Align 通过双线性插值避免了量化误差,能够更精确地提取候选区域的特征,这对于需要高精度定位的任务(如目标分割)以及小目标检测更为有利。尽管原始摘要主要描述了 RoI Pooling 或 RoI Align 的用途 [8],子章节描述要求分析 RoI Align 相对于 RoI Pooling 的改进,其核心优势在于通过避免量化误差提高了特征对齐的精确性。
【分类与边界框回归 (Fast R-CNN 检测器)】
提取出固定尺寸的特征后,这些特征被输入到 Fast R-CNN 检测器中 [8]。检测器通常包含全连接层,用于对每个候选区域进行最终的分类和更精确的边界框回归 [8]。分类输出候选区域属于各个类别的概率,而回归输出更精细调整后的边界框坐标。Faster R-CNN 的总损失函数综合了 RPN 的分类损失、RPN 的边界框回归损失、Fast R-CNN 的分类损失和 Fast R-CNN 的边界框回归损失,实现了端到端的优化 [8]。
【在无人机遥感应用中的表现】
两阶段检测器,特别是 Faster R-CNN 及其改进型,在对检测精度要求较高的无人机遥感应用场景中得到了广泛应用。其通过先生成候选区域再进行精细分类和回归的策略,使其在复杂背景下、对密集或小目标进行高精度检测方面具有优势。例如,针对无人机航拍图像中的小目标检测,研究者在 Faster R-CNN 基础上进行了多项改进,包括增加可形变卷积模块以提升网络对空间信息的建模能力 [3],改进多尺度融合策略以提高算法对小目标的检测能力 [4],以及采用自适应锚框生成和平衡损失函数来增强网络对小目标特征学习的关注,这些改进在标准数据集(如 COCO)上显示出显著的小目标检测 AP 提升(最多可提高 18%) [6]。此外,基于改进 Double-Head RCNN 等变体也被应用于无人机航拍图像的小目标检测 [2]。这些案例表明,两阶段检测器及其针对小目标、多尺度特征等问题的优化,是无人机遥感图像高精度目标检测的有效技术路线。
【计算量分析】
尽管两阶段检测器在精度上表现突出,但其计算量相对较大是其主要缺点之一。这主要源于以下几个方面:首先,需要先通过 RPN 生成大量的候选区域;其次,需要对每个候选区域独立进行特征提取(即使是共享卷积特征后,RoI Pooling/Align 后的特征仍需单独处理);最后,后续的分类和回归网络需要处理这些数量庞大的候选区域特征。与一步到位的单阶段检测器(如 YOLO、SSD)相比,两阶段方法通常需要更多的计算资源和更长的推理时间 [21]。例如,R-CNN 因其处理每个候选区域时的重复计算而速度缓慢,即使 Faster R-CNN 通过共享特征和 RPN 提高了效率,相比单阶段方法,其在追求极致实时性的应用中仍可能面临挑战。然而,在对精度要求高于速度要求的无人机遥感应用中,两阶段检测器的优异性能使其成为重要的选择。针对计算效率问题,未来的研究方向可能包括网络结构优化、剪枝量化以及更高效的特征提取和区域处理方法。
3.2.2 单阶段检测器
其中,YOLO系列和Single Shot MultiBox Detector (SSD) 是典型的单阶段检测器代表。
检测器系列 | 特点/优势 | 典型模型示例 | 在无人机遥感图像检测中的作用/改进方向 |
---|---|---|---|
YOLO 系列 | 速度快、实时性好、端到端预测 | YOLOv3, YOLOv5, YOLOv8 | 优化主干网络、引入注意力机制、多尺度融合、损失函数改进 |
SSD 系列 | 多尺度预测、速度较快 | SSD | 结合 FPN 提升小目标检测 |
RetinaNet | Focal Loss 解决类别不平衡、提升小目标检测 | RetinaNet | 提升复杂背景下小目标的鲁棒性 |
单阶段目标检测器以其高效的处理速度,在实时性要求极高的无人机遥感图像处理领域展现出显著优势。与先生成候选区域再进行分类和回归的双阶段检测器不同,单阶段检测器直接预测目标类别和边界框,从而大幅提高检测效率,满足了实时应用的需求。其中,YOLO系列和Single Shot MultiBox Detector (SSD) 是典型的单阶段检测器代表[10]。
SSD 模型通过在不同尺度的特征图上设置默认框(锚框),并直接对这些默认框进行分类和位置回归,实现了单阶段检测。结合特征金字塔网络(FPN)后,SSD 模型对小目标的检测效果得到了提升[10]。RetinaNet 作为另一种重要的单阶段检测器,通过引入 Focal Loss 解决了前景与背景类别极度不平衡及难易样本差异较大的问题,特别优化了对小目标和难样本的检测效果[10]。
YOLO 系列算法因在速度和精度之间实现了良好平衡,成为单阶段检测领域的研究热点和主流方法。从最初的版本发展至今,YOLO 系列涌现了大量改进工作,涵盖了 YOLOv3、YOLOv4、YOLOX、YOLOv5、YOLOv7 和 YOLOv8 等多个版本[2,8]。这些改进旨在进一步提升检测性能,包括优化主干网络结构以提取更丰富的特征;引入注意力机制(如坐标注意力、通道空间注意力、轻量通道注意力、压缩激励、多头注意力和多尺度混合注意力)以增强对关键区域的关注;采用多尺度聚合与校准特征、自适应特征融合、加权双向特征金字塔、特征增强模块等技术提升不同尺度特征的利用效率;设计新的检测头或改进现有检测头(如动态目标检测头、预测头集成 ConvMixer 层);增大网络输出特征图以保留更多细节信息;同时优化目标位置损失函数(如采用 SIoU、EIoU 或增强交并比损失函数)与引入新型损失函数(如 NWD 损失函数),以更精确地回归目标位置;此外,还引入了上下文 Transformer 模块、轻量化特征提取和内容感知特征重组模块、上下文聚合模块以及新的空间金字塔池化组件等,进一步增强网络对目标周围环境信息的感知能力[2]。例如,有研究工作以 YOLOv5 为基础网络进行改进[18,20],也有基于 YOLOv8 改进的模型,如 VTO-YOLOv8 和 asf_wiou_yolov8 算法,它们均属于单阶段检测器范畴[1,13]。这些持续改进不断推动着 YOLO 系列在各类应用场景中的性能演进。
尽管单阶段检测器在速度方面具有优势,但在处理无人机遥感图像中小目标时仍面临挑战。遥感图像通常覆盖广阔区域,目标相对于图像尺寸较小,加之分辨率、光照和遮挡等因素的影响,小目标特征在网络下采样过程中易被丢失。为应对此挑战,研究者们提出了一系列改进策略。除了前述 SSD 结合 FPN 与 RetinaNet 引入 Focal Loss 的方法[10],还有研究探索基于关键点回归、上下文敏感以及改进特征提取模块(如堆栈沙漏、RE 卷积)的方法,以增强网络对小目标特征和上下文信息的学习能力[6]。此外,引入方向池化操作以代替传统下采样或者采用尺度感知机制,也有助于减少小目标信息的损失、提升检测精度[6]。
单阶段检测器的高效率使其非常适用于对实时性要求极高的无人机遥感应用场景。例如,在交通监控中,需要快速检测和跟踪车辆以进行流量分析或违章抓拍;在应急通信中,无人机需要迅速搜寻并定位灾区幸存者或关键设施;在边境巡逻和电力线路巡检等场景中,单阶段检测器能够快速识别可疑目标或故障点并进行预警。尽管小目标检测仍存在一定难度,但针对性的改进策略和不断演进的网络架构使得单阶段检测器在实际应用中扮演着越来越关键的角色。未来的研究可能将继续聚焦于如何平衡单阶段检测器的速度优势与小目标检测精度,进一步优化模型结构和训练策略,使其更好地适应复杂的无人机遥感图像环境。
3.2.3 基于Transformer的目标检测方法
基于Transformer的目标检测方法代表了目标检测领域的重要发展方向,展现出巨大潜力[19]。这类方法的核心在于利用自注意力机制,有效捕捉图像全局信息,从而克服了传统卷积神经网络(CNN)在建模远距离依赖时的不足[8]。通过允许模型平衡输入序列中各位置的重要性,Transformer能够建立图像中任意两个像素之间的关系,这对理解复杂场景和检测稀疏目标尤为关键。
DETR(检测Transformer)是首个将Transformer结构端到端应用于目标检测的模型,其创新之处在于将目标检测任务视为集合预测问题。DETR通过一个Transformer编码器-解码器结构,直接从图像特征中预测出一组目标边界框和类别标签,无需手动设计非极大值抑制(NMS)等后处理步骤,从而极大简化了检测流程。尽管DETR展示了端到端检测的优势,但其也面临收敛速度较慢以及对计算资源要求较高的挑战。Deformable DETR等改进模型通过引入可变形注意力机制,提高了计算效率和收敛速度,并增强了对不同尺度目标的适应性[10]。这些基于Transformer的模型能够捕捉长距离依赖关系,这对于在遥感图像中检测通常只占少量像素的小目标区域尤为重要,因为捕捉小目标的有效特征往往需要整合更广阔的上下文信息[10]。
此外,Transformer的强大表示能力也推动了跨模态研究的进展。例如,GLIP(Grounded Language-Image Pretraining)模型是一种多模态语言图像模型,它通过执行对比性预训练来学习语义丰富的表示,并实现不同模态之间的信息对齐[8]。GLIP为零样本目标检测(零样本目标检测)提供了一个灵活框架,使用户能够利用文本提示精确定位图像中感兴趣的对象或区域,而无需事先定义或训练特定类别检测器[8]。这种能力在应对低空经济应用中可能出现的未知或罕见目标时具有重要意义。
展望未来,基于Transformer的目标检测方法在无人机遥感图像目标检测中具有广阔的应用前景。凭借其在处理长距离依赖和增强小目标特征捕捉方面的优势,这类方法尤其适用于高分辨率遥感图像中常见的目标密集分布或稀疏小目标场景[10]。同时,结合GLIP所展示的多模态能力,可以实现更加灵活和智能的目标识别,特别是在识别复杂地物或非常规目标时。尽管当前仍需解决计算效率等问题,但随着模型结构的不断优化和硬件性能的提升,基于Transformer的方法有望成为未来无人机遥感目标检测的主流技术之一。
4. 面向无人机遥感图像特点的改进技术
低空经济的蓬勃发展对无人机技术的应用提出了新的需求,其中无人机遥感图像目标检测作为获取环境信息和实现智能化应用的关键技术,其性能直接影响到低空作业的效率和安全性[14,25]。然而,与传统光学图像相比,无人机遥感图像具有其独特特点,例如高空俯视视角导致的类内差异小、类间相似度高,拍摄距离远造成目标像素尺寸小(即小目标问题),大范围场景中目标分布可能极为密集,以及复杂多变的背景干扰等[3,11,18,20]。此外,无人机飞行过程中受光照、天气、姿态变化等环境因素影响显著,且载荷限制要求检测算法具备较高的实时性和轻量化特点,这些都对现有目标检测技术提出了严峻挑战[2,3,22]。
为了有效应对上述挑战,提升无人机遥感图像目标检测在低空经济应用中的准确性、鲁棒性和效率,研究人员在深度学习目标检测框架基础上,针对无人机遥感图像的特点,提出了多种改进技术[1,4,13,19]。这些改进主要聚焦于优化特征提取和表示、增强模型对图像特定属性的适应性以及提升模型的运行效率。本章旨在系统梳理和分析面向无人机遥感图像特点的各种改进技术,结合相关文献,详细阐述其基本原理、针对解决的具体问题及其在提升检测性能中的作用。具体内容将围绕以下几个关键方面展开:针对特征微弱和小样本问题的小目标检测优化方法;应对目标密集和背景复杂挑战的技术;提高模型对环境变化适应性的鲁棒性增强策略;满足无人机平台部署需求的实时性与轻量化检测技术;以及优化边界框定位和分类的新型损失函数设计。
4.1 小目标检测优化方法
这些方法主要围绕数据增强、多尺度特征融合、超分辨率、上下文信息利用以及注意力机制等方面展开。
优化方法类别 | 具体技术示例/描述 | 解决的问题/作用 |
---|---|---|
数据增强 | 尺度变换、裁剪、复制粘贴、过采样、图像切割 | 增加小目标样本数量和多样性、提高泛化能力 |
多尺度特征融合 | FPN, PANet, BiFPN, 二次特征融合, 跨层融合 | 结合浅层细节和深层语义信息、提升不同尺度检测能力 |
超分辨率 | GAN 超分辨率、低分辨率训练/微调 | 增强小目标视觉特征和可辨识性 |
上下文信息利用 | 扩大感受野(空洞卷积)、上下文聚合模块 | 提供辅助线索、区分目标与背景 |
注意力机制 | SE, CBAM, 混合注意力、FBAM、SimAM_RepC3、CPAM | 聚焦关键区域/特征、抑制背景噪声 |
其他改进 | 改进网络结构(CACBS, Swin/EfficientNet)、损失函数优化、自适应锚框 | 提高特征提取能力、平衡样本、优化定位 |
无人机遥感图像中的小目标检测面临特征微弱、背景干扰严重、样本不均衡等挑战,为此,研究者们提出了多种优化方法以提升检测性能。这些方法主要围绕数据增强、多尺度特征融合、超分辨率、上下文信息利用以及注意力机制等方面展开[2,6,11,20]。
数据增强是应对小目标样本数量有限及多样性不足的有效手段。通过应用尺度变换、随机裁剪、复制粘贴等技术,可以增加小目标的训练样本数量和多样性,从而提高模型的泛化能力和鲁棒性[12]。具体方法包括使用高分辨率输入、局部裁剪(裁剪增强)、随机缩放(随机缩放)等[10]。例如,有研究提出过采样和分割Mask抠图等方法来增加小目标样本的数量[12]。此外,通过预处理步骤中的图像切割(tile操作),将图像分割成小块后形成批次输入,也能有效地使检测器聚焦于小物体,这在一定程度上等同于高分辨率局部输入[11,20]。
多尺度特征融合是提升小目标检测性能的关键技术之一。由于小目标在图像中占据的像素区域很小,其浅层特征包含丰富的细节信息,但语义信息不足;深层特征具有丰富的语义信息,但分辨率低,细节信息丢失严重。多尺度特征融合旨在结合不同层级的特征,实现细节信息与语义信息的优势互补[6,17]。常用的多尺度特征融合网络结构包括特征金字塔网络(Feature Pyramid Network)、路径聚合网络(Path Aggregation Network)和双向特征金字塔网络(BiDirectional Feature Pyramid Network)等[10,18]。这些结构通常采用自顶向下和自底向上的路径,传递深层语义信息和浅层细节信息[17]。有研究提出了二次特征融合方法,通过1×1卷积融合两组融合后的特征图,以获得包含更丰富信息的特征[17]。改进的级联 R-CNN方法也采用了融合特征层的思路,通过合并操作提高对小目标的检测能力[4]。双向特征金字塔网络结构的引入被证实能增强网络对多尺度特征的提取能力,从而提升小目标检测效果[1,18]。
超分辨率技术可以通过提升小目标的图像分辨率来增强其视觉特征和可辨识性[2,20]。例如,利用生成对抗网络(GAN,生成对抗网络)进行超分辨率处理,以增强图像的细节信息[2]。另一种相关的策略是在低分辨率图片上训练模型,或使用在高分辨率图片上训练的模型在低分辨率图像上进行微调,以提高准确性[12]。然而,超分辨率方法通常会增加额外的计算负担和推理时间,需要权衡性能与效率。
上下文信息和注意力机制对于增强小目标的识别能力至关重要[6,11,20]。小目标自身特征微弱,其周围环境的上下文信息可以提供重要的辅助线索,帮助区分目标与背景。通过扩大感受野(例如利用空洞卷积)可以获取更丰富的上下文信息,增强浅层特征的表示能力[17]。注意力机制能够使模型将更多计算资源和关注集中到图像中的重要区域,尤其是潜在的小目标区域,从而提高检测能力[2,8,10,12]。常见的注意力模块包括Squeeze-and-Excitation(Squeeze-and-Excitation)模块和卷积块注意力模块(Convolutional Block Attention Module)等,基于Transformer的模型也天然地具有全局上下文建模能力[10]。
除了上述主要方法,还有其他多种优化策略,包括改进网络结构(如CACBS结构设计[19],使用更高分辨率的特征提取器如Swin Transformer和EfficientNet[10])、损失函数优化(如平衡损失函数[6])、自适应锚框生成或锚框分配策略(无锚方法或重新分配锚框大小,增加小目标的权重[2,6,10])、特征增强与细化[2]、后处理优化(基于上下文信息或多尺度推理[10]),以及实时轻量化检测方法的探索[2,11]。
尽管这些方法在提升小目标检测性能方面取得了显著进展,但仍面临挑战。例如,超分辨率技术虽然能提高分辨率,但计算量和处理时间可能大幅增加,不利于实时应用。上下文信息的有效利用需要复杂的模型设计,且不恰当的上下文信息可能引入噪声。数据增强依赖于样本的合理分布,过度或不当增强可能引入伪影或偏置。未来研究方向可能包括开发更高效的超分辨率算法、探索更鲁棒且高效的上下文建模方法、设计新颖的多尺度融合网络以及结合多种优化策略的端到端模型。
4.2 处理密集目标和复杂背景的方法
无人机遥感图像目标检测在应用于低空经济等场景时,经常面临目标分布密集和背景复杂多变的挑战。密集分布的目标可能相互遮挡或彼此距离极近,从而增加了准确分割和识别的难度;而复杂的背景则往往包含大量与目标相似的干扰信息,容易导致模型误检或漏检。
为了应对这些问题,研究者们提出了多种改进方法,旨在增强模型对目标特征的提取能力以及对背景噪声的抑制能力。
挑战类型 | 改进方法类别 | 具体技术示例/描述 | 解决的问题/作用 |
---|---|---|---|
密集目标 | 特征融合 | 跨层连接、多尺度特征融合网络 (FPN, BiFPN等) | 增强不同尺度信息,更好地区分相邻目标 |
注意力机制 | 空间注意力、混合注意力 | 聚焦目标区域,减少相互干扰 | |
样本处理/后处理 | 优化正负样本定义、改进 NMS 或基于上下文的后处理 | 提高密集场景下目标区分能力和定位准确性 | |
复杂背景 | 注意力机制 | 通道注意力、空间注意力、混合注意力 | 增强目标特征判别性,抑制背景噪声 |
特征表示优化 | 可变形卷积、特征融合、空间金字塔池化 (SPP) | 提升对复杂纹理和形变的适应性,整合上下文信息 | |
样本学习优化 | 优化正负样本定义、平衡损失函数 | 使模型更关注目标样本,减少背景误检 |
为了应对这些问题,研究者们提出了多种改进方法,旨在增强模型对目标特征的提取能力以及对背景噪声的抑制能力。
注意力机制是提升模型在复杂场景下性能的有效手段之一。通过引入注意力模块,模型可以更加聚焦于图像中与目标相关的区域及特征,从而提升特征的判别性。例如,有研究提出了一种基于混合注意力机制的 HAM-Faster-RCNN 算法 [3],该算法在 Faster R-CNN 的基础上融入了混合注意力模块,该模块结合了通道注意力和空间注意力 [3]。通道注意力能够动态调整各特征通道的重要性,使模型更关注具有区分性的关键信息;而空间注意力则使模型能够对不同空间位置的信息进行加权处理,突出目标区域。这种混合注意力机制显著扩展了卷积网络的特征学习容量,并提升了深度卷积特征的表征能力 [3],有助于模型在复杂背景下更准确地捕捉目标。
除了注意力机制之外,处理复杂背景的策略还包括优化特征表示和改进样本学习过程。特征融合是一种常用方法,通过整合来自网络不同层次或不同分支的特征,可以融合多尺度信息和更丰富的上下文信息,从而增强模型在复杂场景下的鲁棒性。例如,有研究通过引入跨层连接的特征融合来应对复杂背景 [19]。这种跨层融合帮助结合了底层特征的细节信息与高层特征的语义信息,从而提高了目标在复杂背景中的可区分性。同时,空间金字塔池化(空间金字塔池化,SPP)结构的改进也被用于更好地处理复杂背景 [19]。SPP 能够聚合不同空间尺度的特征,使模型对目标尺度变化具备更强的适应性,并有助于在多样化背景下提取稳定的特征表示。此外,对正负样本处理方式的优化也能提升模型区分目标与背景的能力。例如,RTSTD 方法通过重新定义正负样本的判定标准,增强了其 MMFE 网络在复杂背景下区分目标的能力 [11]。合理界定目标与干扰背景,有助于模型更高效地学习决策边界。
综上所述,通过引入注意力机制以增强特征表示、采用特征融合与空间金字塔池化来整合上下文信息,以及优化样本学习过程,可以有效提升无人机遥感图像目标检测模型在处理密集目标和复杂背景时的表现。这些技术手段协同作用,旨在提高模型在复杂场景下的目标识别精度和抗干扰能力。然而,诸如极度密集、严重遮挡以及背景中相似物体众多等固有挑战仍然存在,未来仍需进一步研究更先进的技术,如考虑目标间的相互关系建模、引入更精细的上下文感知机制或探索更鲁棒的特征学习范式,以满足低空经济应用对目标检测性能日益增长的需求。
4.3 提高鲁棒性以适应环境变化的方法
为了增强目标检测算法的鲁棒性,研究者们探索并引入了多种技术方法,总体上这些方法旨在提升模型对复杂环境的适应能力,从而提高目标检测系统的稳定性和可靠性。
环境变化类型 | 改进方法类别 | 具体技术示例/描述 | 解决的问题/作用 |
---|---|---|---|
光照变化 | 数据增强 | 亮度、对比度、色调调整 | 模拟不同光照条件,提高模型对光照变化的适应性 |
特征表示 | 鲁棒特征学习 | 提取不受光照影响的稳定特征 | |
遮挡 | 数据增强 | 随机遮挡、Cutout | 使模型学习处理部分可见目标 |
网络结构 | 可变形卷积、上下文信息利用、特征融合 | 适应目标形变、利用未遮挡部分的上下文信息推断目标 | |
样本处理 | 改进正负样本定义、处理被遮挡样本 | 提高模型对被遮挡目标的识别能力 | |
视角/姿态变化 | 数据增强 | 旋转、缩放、裁剪、翻转 | 增加不同视角下的目标样本多样性 |
网络结构 | 可变形卷积、注意力机制、多尺度特征融合 | 适应目标形变、聚焦关键特征、处理尺度变化 | |
恶劣天气 | 图像增强/去噪 | 去雾、去雨算法 | 改善输入图像质量 |
域适应/迁移学习 | 将模型泛化到不同天气条件下的数据 | 使模型适应训练数据与测试数据之间的环境差异 |
面向低空经济应用的无人机遥感图像目标检测面临诸多挑战,其中环境因素的变化显著影响模型的性能和鲁棒性。复杂多变的光照条件、部分遮挡以及不同视角下目标呈现的形变,都会对目标的准确识别和定位构成障碍。因此,如何提高模型对环境变化的适应能力成为该领域亟待解决的关键问题。
为了增强目标检测算法的鲁棒性,研究者们探索并引入了多种技术方法,总体上这些方法旨在提升模型对复杂环境的适应能力,从而提高目标检测系统的稳定性和可靠性 [8]。具体技术路径包括但不限于图像增强、特征选择与组合以及模型自适应 [8]。
在深度学习框架下,数据增强是一种常用且有效的策略。通过模拟光照变化、旋转、缩放、裁剪、翻转以及引入噪声等操作,可以扩充训练数据集的多样性,使训练得到的模型能够更好地适应未知环境中的变化,从而提升其泛化能力 [3]。
除了数据增强之外,网络结构的设计对于提高模型鲁棒性也至关重要。例如,可变形卷积(Deformable Convolution)允许卷积核的采样位置自适应地偏离标准网格,从而更灵活地捕捉目标几何形变,有效应对因目标尺度、姿态和视角变化带来的挑战 [3]。
此外,注意力机制(Attention Mechanisms)能够帮助模型在复杂背景中聚焦于目标区域或更具判别力的特征,从而减少环境因素的干扰。领域自适应(Domain Adaptation)技术则致力于缩小训练数据与测试数据之间因环境差异(如不同天气、季节、传感器等)而产生的分布差距,通过迁移学习等方法使模型更好地泛化到未知或不同领域的数据中,这对于提高模型在实际低空环境中的应用能力尤为关键 [20]。
尽管上述方法在提升无人机遥感图像目标检测鲁棒性方面取得了显著进展,但由于环境变化的复杂性和多样性,该领域仍存在进一步研究的空间。特别是在极端天气、夜间低光照或大面积遮挡等条件下,如何进一步提高模型的鲁棒性,仍是未来需要持续探索的重要方向。
4.4 实时性与轻量化检测技术
实现实时轻量化检测主要依赖于轻量化模型设计和模型加速技术。
技术类别 | 具体技术示例/描述 | 目标 | 优势/挑战 |
---|---|---|---|
轻量化模型设计 | 优化网络模块(如 SimAM_RepC3)、多分支模块(如 C2f-DBB) | 减少参数量和计算量、提高计算效率 | 效率提升明显;可能牺牲部分精度 |
简化后处理(如 基于单关键点回归) | 降低推理延迟 | 后处理速度快;可能对定位精度有影响 | |
轻量化主干网络 | 减小模型体积和计算需求 | 适合边缘设备;特征提取能力可能受限 | |
模型加速技术 | 模型量化(float32->float16->int8) | 降低计算和存储需求 | 提高速度、降低功耗;精度可能下降,需评估量化策略 |
模型剪枝(BN剪枝) | 移除冗余,减小模型体积和计算量 | 减小模型大小、提高速度;需谨慎选择剪枝策略以保精度 | |
模型蒸馏 | 利用大模型指导小模型训练,提升小模型性能 | 提升小模型性能;需要教师模型和额外训练过程 | |
硬件加速/推理引擎(TensorRT) | 充分利用硬件加速、优化推理图 | 显著提高特定硬件上的推理速度;平台依赖性强 |
低空经济应用场景(例如应急救援和交通监控)对无人机遥感图像目标检测提出了苛刻的实时性要求。同时,由于无人机载荷有限,常需将模型部署于边缘计算平台,这使得研究面向低空应用的实时性与轻量化检测技术变得至关重要 [14,30]。
深度学习模型在训练和推理阶段通常需要大量计算资源 [8],因此研究者们提出了多种优化策略以减小模型的计算量和内存占用,从而提高目标检测算法的实时性和可部署性。
实现实时轻量化检测主要依赖于轻量化模型设计和模型加速技术 [2]。在轻量化模型设计方面,核心在于构建计算效率高且参数量小的网络结构。例如,通过优化网络模块设计,将 C3 模块替换为 SimAM_RepC3 模块,可以在减少特征信息损失的同时显著提升网络的推理速度 [18]。另一策略是设计在不增加计算量条件下即可提升性能的模块,如 C2f-DBB 多分支模块,这充分体现了对轻量化的重视 [13]。此外,简化网络后处理操作也是提升检测速度的有效途径,基于单关键点回归的方法即为一个例证 [6]。例如,RTSTD 方法通过将输入图像裁剪后输入到轻量化的 MMFE 网络中,实现了实时检测 [11]。
模型加速技术主要包括模型压缩和硬件加速。模型压缩技术(如剪枝和量化)旨在减小模型体积和计算需求 [8]。针对改进的 Cascade R-CNN 网络,研究者们对模型的量化和剪枝策略进行了探索和改进 [4]。在量化方面,通过比较 float32、float16、int8 等不同数据格式下模型的检测精度,以确定最优策略 [4]。在剪枝方面,提出了一种改进的 BN 剪枝方法,通过筛选对网络影响最小的 BN 层偏置系数 \gamma ,剪除对应特征层;该方法在混合权重策略下于复杂检测模型中表现出色 [4]。硬件加速方面,将改进后的模型部署于嵌入式平台并利用 TensorRT 进行加速,是实现实时检测的有效手段 [19]。
总体而言,实时轻量化检测方法在实现实时检测方面已取得一定进展,但其普遍问题在于检测精度仍有待提升,即轻量化通常需要与精度间做出权衡 [2]。例如,不同方法在速度与精度之间的平衡各不相同:RTSTD 方法在 GPU 上运行速度可达 66 帧/秒,在 CPU 上也能实现 35 帧/秒 [11],这为实际部署提供了重要参考。未来研究应重点探索在基本保证检测精度不显著下降的前提下,进一步提升模型的轻量化和实时性,以更好地满足低空经济应用的实际需求。
4.5 特征融合与注意力机制
无人机遥感图像因其独特的视角和采集方式,常面临目标尺度变化剧烈、小目标占比高以及背景复杂等挑战。为了有效应对这些问题,深度学习目标检测技术中,特征融合与注意力机制已成为提升性能的关键研究方向。特征融合旨在整合来自网络不同层级的特征信息,既注重丰富高层语义信息,又保留低层空间细节;而注意力机制则侧重于增强网络对图像中关键区域或通道的关注,抑制背景噪声,从而提高目标检测的精度和鲁棒性。
特征金字塔网络(Feature Pyramid Network,FPN)及其变体是实现多尺度特征融合的经典架构。
技术类别 | 主要思想/目标 | 具体技术示例/描述 | 在无人机遥感检测中的作用 |
---|---|---|---|
特征融合 | 整合不同层级/尺度的特征,兼顾细节与语义 | FPN, PANet, BiFPN (T-BiFPN), 二次特征融合, 跨层连接, SSFF | 提升多尺度目标,特别是小目标的检测能力;增强对复杂背景适应性 |
注意力机制 | 使模型聚焦重要区域/通道,抑制无关信息 | SE, CBAM, 混合注意力(通道+空间), FBAM, SimAM_RepC3, CPAM | 增强目标特征判别性,减少背景干扰;提高对关键区域的关注 |
结合应用 | 同时利用特征融合提升多尺度表达,注意力机制增强关键信息 | 在Neck部分结合 BiFPN 和 SimAM_RepC3 | 进一步提升小目标检测性能;平衡多尺度融合和特征增强 |
特征金字塔网络(Feature Pyramid Network,FPN)及其变体是实现多尺度特征融合的经典架构。FPN通过构建自顶向下的路径,将具有丰富语义信息的深层特征上采样并与浅层特征进行融合,从而形成融合了不同尺度信息的特征金字塔 [6,17]。在此基础上,PANet引入了自底向上的路径,进一步强化了不同层级特征之间的信息流动;而更先进的结构如BiFPN则通过双向跨尺度连接和加权融合,显著提高了多尺度特征融合的效率和效果 [10,18]。此外,有研究在无人机遥感图像检测中设计了四层T-BiFPN结构,通过加强浅层与深层特征的融合及不同尺度信息的交互,有效提升了网络的特征表达能力 [13]。其他特征融合方法也广受关注,例如采用跨层连接的特征融合方法 [19],提出增强多尺度特征学习模块以加强网络对多尺度特征信息的关联 [6],以及设计多尺度多深度特征提取(MMFE)网络 [11]。在Neck部分,引入SSFF模块(Scale-Sensitive Feature Fusion)也是一种策略,其主要作用是将多个尺度图像的全局或高级语义信息进行融合 [1];这些融合策略通过合并不同层次的特征图,显著提升了算法对小目标的检测能力 [4]。
注意力机制通过学习权重,使网络能更加关注有助于目标检测的特征,而忽略无关背景信息。经典的注意力模块包括SE(Squeeze-and-Excitation)和CBAM(Convolutional Block Attention Module),它们分别通过通道注意力和空间注意力来增强重要特征、抑制背景噪声 [10]。在无人机遥感图像目标检测领域,注意力机制的应用形式多样。例如,混合注意力模块通常由通道注意力模块和空间注意力模块组成,可大幅扩展卷积神经网络的容量,并提升深度卷积特征的表征能力 [3]。此外,研究者提出了基于频率域的分块复合注意力模块FBAM [20],以及可视为注意力机制应用的SimAM_RepC3模块,以减少特征信息的丢失 [18]。聚焦调制模块也被用于加强不同尺度信息的交互 [13];基于注意力机制的判别性特征学习则成为该领域的重要研究方向 [2]。此外,CPAM(Channel and Position Attention Module)模块结合了通道注意力和位置注意力网络 [1]。
将特征融合与注意力机制相结合,可在提升多尺度特征表达能力的同时,增强网络对关键特征的关注。例如,在构建目标检测网络时,可在Neck部分引入BiFPN结构以增强多尺度特征融合,同时采用SimAM_RepC3模块减少特征丢失 [18];另一方法则是在Neck部分加入SSFF模块进行多尺度信息融合,并结合CPAM模块提升特征的判别性 [1]。这些方法通过综合利用不同层级特征并赋予关键信息更高的权重,已被证明能有效提升无人机遥感图像目标检测——尤其是小目标检测的性能。尽管这些技术已取得显著进展,但如何设计更高效、轻量级的多尺度特征融合结构和注意力模块,以及如何更好地结合上下文信息来应对复杂背景下小目标检测的挑战,仍是未来需要深入研究的方向。
4.6 损失函数改进
目标检测任务通常包含两个关键组成部分:目标分类与位置回归,这两者分别对应着分类损失和边界框回归损失。分类损失旨在衡量模型对目标类别的预测准确性,而边界框回归损失则评估预测框与真实框之间的吻合程度。在无人机遥感图像目标检测的应用场景下,图像特点(如分辨率变化大、目标尺度差异显著、背景复杂等)使得优化这些损失函数尤为重要。
边界框回归损失的演进是提升目标定位精度的重要方向。传统的L_1或L_2范数损失独立计算预测框与真实框各坐标之间的差值,忽略了边界框作为一个整体的结构信息,如长宽比和方向。
交并比(Intersection over Union, IoU)作为衡量预测框与真实框重叠度的指标,被引入作为损失函数,即L_{IoU} = 1 - IoU。然而,当预测框与真实框不相交时,IoU为零,IoU损失的梯度也为零,导致模型无法学习如何移动预测框靠近真实框。
为了解决IoU损失的梯度问题及提升回归性能,研究人员提出了IoU系列损失函数的改进版本。广义交并比(Generalized IoU, GIoU)引入了最小外接矩形的区域信息,即使两框不重叠也能提供梯度信号。完整交并比(Complete IoU, CIoU)在GIoU的基础上进一步考虑了预测框与真实框中心点之间的距离和长宽比的一致性,使其回归更加稳定和准确。在此基础上,增强交并比(Enhanced IoU, EIoU)将长宽比差分解耦为宽度和高度的差,并加入了预测框与真实框中心点距离的欧氏距离,进一步优化了回归过程。更近期的研究提出了尺度不变交并比(Scale-invariant IoU, SIoU)和明智交并比(Wise-IoU, WIoU)。WIoU旨在通过动态非单调聚焦机制分配梯度,减少高质量锚框对大梯度的需求,从而提高检测器的泛化能力和鲁棒性 [1,13]。例如,在基于YOLOv8模型的无人机航拍图像多目标检测任务中,使用WIoUv1损失函数替代原有的IoU损失,能够平衡不同质量图像的模型训练结果,从而获得更准确的检测结果 [1]。WIoU的计算公式如下所示:
其中,
为惩罚项,x和y为锚框的中心点坐标,x_{gt}和y_{gt}表示目标框的中心点坐标,W_g和H_g表示最小包围框的宽和高 [1]。研究表明,使用Wise-IoU (WIoU) 替换CIoU Loss,能够有效提高模型的回归精度和收敛速度 [18]。WIoUv3通过其明智的梯度分配策略,进一步提高了检测的灵活性和鲁棒性 [13]。
除了边界框回归损失,分类损失的优化也对提升检测性能至关重要,特别是在存在严重类别不平衡的场景下,如无人机遥感图像中目标通常只占图像的很小一部分区域。传统交叉熵损失在类别不平衡时容易被数量占优的简单负样本主导。RetinaNet中提出的Focal Loss通过调制系数降低易分样本的权重,使模型更关注难分样本和少数类别样本,有效缓解了单阶段检测器中的类别不平衡问题,这对小目标和难样本的检测尤其重要 [10]。
针对无人机遥感图像中小目标检测的挑战,研究人员也探索了其他与损失函数相关的优化策略。例如,设计新的平衡损失函数,通过在训练阶段对其他尺寸目标进行惩罚,以增加网络对小目标特征学习的关注 [6]。或者重新定义正负样本,以增强网络区分目标和复杂背景的能力,这间接影响了损失函数在不同样本上的作用效果 [11]。
总的来说,对YOLOv8等模型损失函数的优化 [19],特别是引入先进的IoU系列损失(如WIoU)和解决类别不平衡的损失(如Focal Loss),对于提升面向低空经济应用的无人机遥感图像目标检测技术的性能具有重要意义。未来的研究可以进一步探索结合数据集特点设计定制化损失函数,以更好地应对复杂背景、极端尺度变化和小目标密集分布等挑战。
5. 数据集与评估指标
当前,无人机航拍图像目标检测领域已涌现出多个广泛使用的公开数据集。
数据集名称 | 主要特点/场景 | 目标类别示例 | 规模/挑战 |
---|---|---|---|
VisDrone | 无人机视角交通场景 | 行人、车辆(汽车、货车等)、自行车、人群等 | 规模大、场景复杂、目标小且密集 |
CARPK / UAVDT | 停车场/交通监控 | 车辆 | 车辆密集、视角多样 |
AU-AIR | 航空图像 | 车辆、行人等 | 包含不同环境 |
COCO | 通用目标检测数据集 | 80 个类别 | 小目标占比较高 (约 41% 小于 32x32),常用于小目标研究 |
PASCAL VOC | 通用目标检测数据集 | 20 个类别 | 相对较小,常用于迁移学习或预训练 |
定制数据集 | 针对特定应用/目标 | 飞机、海面舰船、森林火灾、特定农作物病害等 | 特征明确,规模灵活,满足特定需求 |
其他 (BIRDSAI, ...) | 不同场景 (鸟类、水下、海上、森林等) | 多样化目标 | 补充 VisDrone 等通用数据集,研究特定场景/目标 |
在评估无人机遥感图像目标检测算法性能时,常用的评估指标包括精确率(Precision)、召回率(Recall)和F1-score。
评估指标类别 | 指标名称 | 描述/衡量目标 | 在无人机遥感检测中的适用性/重要性 |
---|---|---|---|
基本指标 | 精确率 (Precision) | 检测结果中真正目标的比例 | 衡量模型避免误检的能力 |
召回率 (Recall) | 所有真实目标中被正确检测出的比例 | 衡量模型避免漏检的能力 | |
F1-score | 精确率和召回率的调和平均 | 综合反映精确率和召回率 | |
综合指标 | 平均精度 (AP, Average Precision) | 特定类别 PR 曲线下面积 | 评估单个类别下的性能 |
平均精度均值 (mAP, mean Average Precision) | 所有类别 AP 的平均值 | 评估模型在所有类别上的平均性能 | |
mAP50 | IoU=0.5 时的 mAP | 常用于快速评估,对定位精度要求相对低 | |
mAP@[.5:.95] (或 mAP) | IoU 从 0.5 到 0.95 以 0.05 步长取值的 mAP 平均值 | 对定位精度要求高,更能体现模型综合性能 | |
平均召回率 (AR, Average Recall) | 不同每图检测框数量限制下的召回能力 | 评估模型在密集目标场景下的召回能力 (VisDrone常用) | |
实时性指标 | 推理速度 (FPS, Frames Per Second) | 模型每秒处理的帧数 | 衡量模型实时处理能力 (尤其在板载部署时重要) |
高质量的数据集和恰当的评估指标是无人机遥感图像目标检测研究的基础。本节将综述当前领域常用的数据集及其特点,并详细阐述核心评估指标的计算方法与适用性。
当前,无人机航拍图像目标检测领域已涌现出多个广泛使用的公开数据集 [2]。其中,VisDrone系列数据集(包括VisDrone2018-2023)是常用的无人机视觉数据集,它是一个基于无人机视角拍摄的复杂交通场景数据集,涵盖行人、人群、自行车、汽车、货车、卡车等10个目标类别,并包含天气、地形、时间等丰富的场景信息 [1,2]。该数据集规模庞大,例如VisDrone数据集包含6471张训练图片、548张验证图片和1610张测试图片 [1]。除了VisDrone,其他常用的无人机航拍图像数据集还包括CARPK、UAVDT、AU-AIR等,以及BIRDSAI、UVSD、MOHR、PeopleOnGrass、SIRST、DAC-SDC、DroneVehicle、SeaDronesSee、RO-UAV、UNFSI和PVD等数据集,它们在图像特点、场景类型、目标类别及规模上存在差异,为研究人员提供了多样化的实验平台 [2]。例如,部分研究根据特定应用需求,从现有开源数据集(如UAV123、DTB70、AU-AIR)中筛选并重构数据集,用于地面和海面场景下的小目标检测 [11]。此外,一些通用目标检测数据集如PASCAL VOC和COCO也被用于验证算法性能,尤其是COCO数据集,其小目标占比较高(约41%的目标面积小于32×32像素),常被用于小目标检测研究 [6,12,17]。研究人员有时也会针对特定目标(如遥感图像中的飞机)制作定制数据集 [19]。这些数据集在图像分辨率、拍摄高度、目标密度、标注精细度等方面各具特点,研究者需要根据具体任务需求选择或构建合适的数据集。
在评估无人机遥感图像目标检测算法性能时,常用的评估指标包括精确率(Precision)、召回率(Recall)和F1-score [19,22]。精确率衡量检测结果中真正目标的比例,召回率衡量所有真实目标中被正确检测出的比例,而F1-score是精确率和召回率的调和平均值,综合反映了模型的性能。
更广泛使用的指标是平均精度均值(mAP, mean Average Precision),它能够更全面地评估模型在所有目标类别上的平均表现 [1,3,13,19]。mAP通常基于不同交并比(IoU, Intersection over Union)阈值下的平均精度(AP, Average Precision)计算。AP是某个类别下,不同置信度阈值对应的精确率-召回率曲线下的面积。针对无人机遥感图像特别是小目标检测任务的特点,常常使用特定的mAP变体。例如,VisDrone挑战赛和许多研究中广泛采用mAP50(即IoU阈值为0.5时的mAP)以及mAP@(在IoU阈值从0.5到0.95以0.05步长取值时的mAP平均值) [1,2,3,13]。mAP50对检测框的定位精度要求相对较低,而mAP@则对定位精度提出了更高的要求。对于小目标和密集目标的检测,由于目标尺寸小、易受遮挡和背景干扰,评估更具挑战性。除了AP和mAP,VisDrone挑战赛还使用平均召回率(AR, Average Recall)等指标,如AR1、AR10、AR100、AR500,以评估模型在不同每图检测框数量限制下的召回能力,这对于衡量模型在密集目标场景下的性能尤为重要 [2]。在评估实际应用性能时,除了精度指标,模型的实时性(推理速度)也是关键的评估维度 [11,22]。
6. 低空经济应用场景下的无人机遥感图像目标检测
其应用已经广泛渗透到低空经济的各个核心领域,为提升作业效率、优化决策过程提供了重要技术支撑。
应用场景 | 典型目标 | 关键检测需求 | 特有挑战/侧重点 |
---|---|---|---|
农业生产 | 农作物、病虫害、杂草、土地利用类型 | 高精度分类、小目标检测、健康状态评估 | 目标细微、背景复杂(植被)、尺度变化、实时监测 |
应急救援 | 受困人员、建筑物损毁、次生灾害 | 快速定位、鲁棒性、小目标检测 | 恶劣环境、三断条件、实时性、复杂地形、快速变化 |
基础设施巡检 | 设备异常、裂纹、泄漏点、违规行为 | 精确定位、高精度识别特定缺陷 | 细节检测、复杂结构背景、不同设备类型 |
城市管理/公共安全 | 车辆、行人、非法建筑、人群聚集 | 多样性检测、实时性、密集目标区分 | 目标多样、密集分布、复杂城市背景、动态变化 |
物流配送 | 配送点、障碍物 | 精准识别配送点、路径规划辅助 | 环境多样、动态障碍、实时性 |
环境评估 | 污染源、特定生物 | 定位污染源、识别生物种类/数量 | 目标分散或聚集、背景复杂 |
无人机遥感图像目标检测技术是低空经济蓬勃发展背景下的关键赋能技术之一,其应用已经广泛渗透到低空经济的各个核心领域,为提升作业效率、优化决策过程提供了重要技术支撑[2,3,5,23]。通过对无人机获取的遥感图像进行智能分析,该技术能够自动识别、定位并区分图像中的特定目标,从而服务于多样化的低空作业任务。
在农业领域,无人机遥感图像目标检测技术正深刻改变传统农业生产方式。其主要应用场景包括农作物监测、病虫害识别以及产量预测[16,23,25,26]。通过对农田航拍图像的分析,可以评估土地利用状况、作物空间分布及种植密度,辅助制定科学的种植规划[16]。尤为重要的是,该技术能够快速、准确地识别农作物病虫害区域,监测作物健康状况,并为精准施药和病害防控提供数据支持[16,25]。部分系统甚至还能结合温度传感器数据监测土壤温度和湿度,进一步辅助精准灌溉和施肥决策[16]。相较于传统地面作业方式,农业无人机显著提升了作业效率和农药利用率,推动了现代农业与低空经济的深度融合[25]。此外,无人机航测技术在农业监测中的应用为决策提供了高精度地理信息支持[26],而智慧农业方案则通过低空专网实现了农业信息的跟踪与追溯,促进了农业数字化转型[29]。
在灾害救援与应急响应方面,无人机遥感图像目标检测技术扮演着至关重要的角色,特别是在地震、洪涝等“三断”(断路、断网、断电)极端灾害场景下[29,30]。该技术可用于快速评估灾情、识别受损区域(如建筑物损毁情况),并在搜救过程中精准定位被困人员[5,14,23,27]。例如,通过无人机拍摄的正射影像,可以直观评估建筑物的损毁情况,而实时视频数据则辅助搜救人员迅速锁定幸存者位置[27]。在应急通信中断的情况下,无人机可搭载通信设备,并借助图像识别技术确定部署点,快速构建应急通信网络,以保障指挥调度和救援信息传递[14,29]。此外,该技术还可用于监测堰塞湖、山体滑坡等次生灾害,为防灾减灾提供预警信息[27]。此类应用对目标检测的精度、速度和鲁棒性要求极高,必须能够在复杂且快速变化的环境下稳定运行[27]。从政策层面看,应急救援也是新型通用航空装备重点发展的商业应用领域之一[15]。
基础设施巡检是无人机遥感图像目标检测技术的另一个重要应用领域,覆盖电力、能源、交通、建筑等多个行业[2,3,9,23]。在电力行业,无人机搭载高清摄像头和红外热成像仪等专业设备,通过图像分析精准检测输电线路中是否存在破损、老化或发热等异常现象[9]。在石油管道巡检中,无人机能够全方位监测管道周边环境,及时发现泄漏点或因第三方施工而引起的破坏[9]。在交通基础设施方面,无人机可对高速公路等进行高频巡查,识别路面病害,监测行人违规上高速、车辆异常停车以及交通拥堵等情况[9]。这些应用有助于提高巡检效率、降低人员风险并及时发现潜在的安全隐患。
在城市管理与公共安全领域,无人机遥感图像目标检测技术为监测和管理提供了高效手段[2,3,5,23]。其具体任务包括但不限于交通流量统计、违章停车识别、非法建筑监测、人群聚集检测以及环境污染源检测[2,5,9,23]。例如,通过对城市高空图像的分析,可以实时掌握交通流量、识别违章停车行为,从而协助交通管理部门优化调度;对特定区域的监测,可以及时发现并记录非法搭建的建筑结构;在大型活动中,监测人群密度有助于预防踩踏事故。与“5G网联无人机+AI”相结合的智慧城市管理方案正在落地应用,提升了城市治理的智能化水平[29]。此外,该技术还应用于森林安防,通过无人机巡查平台加强在复杂森林火灾场景下的任务处理能力[29]。
除上述核心领域外,无人机遥感图像目标检测技术在低空经济其他应用场景中也发挥着重要作用。例如,在物流配送领域,人工智能技术(包括目标检测)是无人机实现高效、低成本配送的核心驱动力之一[28]。政策规划也明确将城市空运和物流配送列为新型通用航空装备的重要商业应用方向[15]。低空医疗配送网络的构建同样依赖于无人机的飞行和物品投放能力,其中可能涉及对配送点的识别和定位[29]。环境评估和生态保护监测也是无人机航测技术结合目标检测的重要应用方向[2,5,26]。
综合来看,不同低空经济应用场景对无人机遥感图像目标检测技术提出了差异化的性能需求。农业应用可能侧重于对细微病虫害特征的识别和作物健康状态的评估,要求较高的分类精度以及对小目标的检测能力;灾害救援与应急响应则对检测速度和鲁棒性提出了严苛要求,需要在恶劣天气、复杂地形和光照变化等不利条件下,快速准确地识别受灾区域和被困人员,同时应对小目标检测的挑战[27]。基础设施巡检则要求对设备缺陷或环境异常实现精确定位和识别,对空间分辨率及特定损伤类型具有较高要求。城市管理应用涵盖的目标种类繁多(车辆、行人、建筑等),因此对检测的多样性、实时性以及在密集场景下的区分能力也提出了较高要求。当前研究在基于深度学习的目标检测方法上已取得显著进展[22],特别是在提升检测精度和速度方面,为上述应用提供了坚实的技术基础[11]。未来的研究方向应聚焦于提升模型在低空遥感图像特殊性(如高空视角、目标尺度变化大、小目标多)下的性能,并增强其在各种复杂低空环境中的适应性和可靠性,以更好地满足低空经济各领域的实际应用需求。
7. 嵌入式部署与系统实现
实现端侧实时图像处理是此类应用的关键需求之一。
环节/技术类别 | 关键考量/方法 | 目的/作用 | 挑战/需求 |
---|---|---|---|
硬件平台 | 嵌入式AI计算平台选择 | 提供机载处理能力 | 计算能力、功耗、成本、体积 |
模型优化 | 量化、剪枝、蒸馏 | 减小模型体积、降低计算复杂度、提升推理速度 | 精度损失、优化策略、适用于不同模型 |
推理引擎 | TensorRT 等 | 加速模型在特定硬件上的推理 | 平台依赖性、优化效果、部署复杂性 |
数据采集与标注 | 高质量图像获取、自动标注工具+人工修正 | 提供训练/推理数据、提升标注效率和准确性 | 标注成本高、数据多样性 |
板载处理 | 在无人机上执行目标检测 | 实现实时、低延迟处理 | 计算资源有限、功耗、散热 |
结果传输与显示 | 通信链路、自组网系统、界面设计 | 将结果传回地面站、用户交互 | 通信带宽、鲁棒性、延迟、界面友好性、信息呈现效率 |
系统集成与协同 | 软硬件协同优化、多无人机协同 | 提升整体性能和可靠性、扩大作业范围 | 系统复杂度、协同策略、任务分配 |
面向低空经济应用的无人机遥感图像目标检测技术,其效能在很大程度上取决于是否能够在资源受限的边缘计算平台(如无人机载设备或地面站)上实现高效的实时处理。该要求不仅对模型的计算效率构成严峻挑战,同时对整个系统设计与实现提出了明确要求。实现端侧实时图像处理是此类应用的关键需求之一[14]。
嵌入式AI计算平台构成了机载实时处理的基础。研究人员通常通过比较不同主流嵌入式平台在计算能力、功耗、成本等关键指标,并进而选择最适合特定应用场景的硬件[19]。
在嵌入式平台上高效运行深度学习模型,需要采用一系列模型优化技术,这些技术旨在减小模型体积、降低计算复杂度,同时尽可能保持检测性能。常见的方法包括模型量化(例如,将浮点权重转换为定点权重)、模型剪枝(即移除冗余连接或神经元)以及模型蒸馏(利用大型教师模型指导小型学生模型训练)。此外,借助专用推理引擎能够显著加速模型在特定硬件上的运行。例如,TensorRT作为一种常用推理引擎,通过图优化和内核自动调优等手段,可以提升模型在NVIDIA嵌入式GPU上的推理速度[19]。研究实践表明,将改进后的YOLOv8模型部署至嵌入式平台并利用TensorRT加速后,可有效满足实时性要求[19]。通过深入分析TensorRT的加速原理,还能更好地理解其优化机制,从而指导实际部署工作[19]。
从系统层面看,无人机遥感图像目标检测系统通常包括数据采集、板载处理以及结果传输与显示等多个环节。数据采集环节涉及高质量遥感图像的获取,其中数据标注作为训练模型的重要步骤,可借助自动标注工具并结合人工修正,以提高效率和准确性,并利用标注数据对模型进行微调以提升性能[4]。板载处理指在无人机上直接完成图像目标检测计算;而结果传输环节则关注将处理后的信息(如目标位置和类别)传回地面站或指挥中心。尤其在应急救援等“三断”场景中,建立稳定可靠的通信链路显得尤为重要,全域感知共享应急自组网通信系统等技术能够实现智能化组网、无中心调度,从而解决现场态势实时感知及高效通联的问题[30]。系统设计需全面考虑有限的功耗预算、受限的计算资源以及通信带宽限制,同时界面和功能设计应直观易用,以便用户便捷查看和操作检测结果[19]。
目前,嵌入式部署和系统实现方面的研究虽已取得一定进展,但仍面临诸多挑战。未来的研究方向应进一步探讨更高效的模型优化技术,例如针对特定嵌入式AI芯片的混合精度量化及结构化剪枝方法;同时,需深入对比不同嵌入式平台和推理引擎的实际性能表现,以提供更具指导性的选型建议;此外,还应研究更鲁棒、低延迟的通信协议和数据传输策略,以适应复杂多变的低空作业环境。系统集成与软硬件协同优化亦是提升整体性能和可靠性的重要方向。
8. 未来发展趋势与挑战
未来的研究将聚焦于解决当前面临的挑战,并探索新的技术范式,以提升检测性能、适应多样化应用场景并确保系统的可靠性与安全性。
发展方向类别 | 具体研究内容/技术 | 目标 | 关联挑战/解决问题 |
---|---|---|---|
高效化与轻量化 | 轻量级网络设计、模型压缩、边缘计算 | 实现无人机边缘端实时部署、降低能耗 | 计算资源有限、实时性要求 |
多模态融合 | 融合可见光、红外、LiDAR、文本等信息 | 提升鲁棒性、适应复杂环境、更全面理解场景 | 传感器异构、数据对齐、融合策略 |
弱监督/半/无监督学习 | 利用少量/无标注数据训练模型 | 降低数据标注成本、提高模型泛化能力 | 数据获取与标注成本高昂、模型泛化能力有限 |
边缘计算与协同智能 | 分布式处理、多无人机协同、智能组网 | 提升监测范围/效率、减轻中心负担、适应三断场景 | 系统复杂度、通信限制、任务分配与协同控制 |
新型技术范式探索 | 结合多模态大模型、3D目标检测 | 提升泛化能力、复杂场景适应性、精确三维定位/姿态估计 | 模型复杂度高、计算资源需求大、数据获取/标注复杂 |
可解释性与安全性 | 模型决策过程透明化、数据安全/隐私保护 | 提高模型可信度、满足法规要求、保障应用安全 | 模型黑箱性质、数据敏感性、政策法规 |
特定场景专业化 | 针对农业、应急等特定需求优化算法 | 提升在特定领域的性能和适用性 | 场景多样性、需求差异化 |
标准与数据集建设 | 构建大规模高质量数据集、统一评估标准 | 支持模型训练与验证、促进技术交流与发展 | 数据获取/标注成本高、缺乏标准化的评测体系 |
本章旨在总结面向低空经济应用的无人机遥感图像目标检测技术,并展望其未来发展趋势。目前,该技术在实际应用中面临一系列关键挑战,这些挑战不仅限制了性能上限,而且影响了在大规模低空经济场景下的可靠性与普及程度。核心问题在于如何在资源受限的无人机边缘计算平台上,实现对遥感图像中尺寸微小目标的实时、高精度和高鲁棒性检测[2,3,5,8,11]。小目标因信息固有缺失、背景环境复杂多变、实时性要求严苛以及计算资源有限等因素,使得技术突破难度增大。同时,数据获取与标注成本、模型泛化能力、可解释性以及法规与安全等非技术性问题,也对技术的成熟和应用提出了更高要求。准确识别并深入剖析这些挑战,是指引未来研究方向和推动技术进步的前提。下文将详细探讨当前主要技术挑战,并在此基础上结合研究进展展望未来的发展方向。
8.1 主要挑战
面向低空经济应用的无人机遥感图像目标检测技术虽然取得了显著进展,但在实际部署和大规模应用中仍面临诸多技术挑战。这些挑战直接关系到检测系统的性能、可靠性以及在复杂多变应用场景下的适用性,从而影响低空经济的普及和发展。
首要的技术挑战在于小目标的高精度检测。无人机遥感图像常因拍摄视角较高,致使地面目标在图像中所占的像素比例极小,呈现为尺寸较小的目标。小目标由于物理尺寸有限、边缘信息模糊等固有特性,其在图像中包含的信息十分有限 [6]。此外,无人机航拍图像通常具有高分辨率且目标分布密集,小目标常伴随有较大尺度变化或存在遮挡等情况,这些因素进一步增加了检测难度,导致小目标检测精度难以有效提升 [3,5]。多项研究均指出,小目标识别是无人机遥感图像目标检测领域的关键难题 [11,20]。例如,在遥感图像中对飞机目标的检测中,飞机目标尺寸过小便构成了主要挑战 [19]。
其次,复杂背景对检测性能的影响同样不容忽视。无人机采集的低空图像背景复杂多变,包含大量干扰信息,如地面纹理、建筑物、植被和水体等,这些复杂元素与目标特征交织在一起,使得目标与背景难以有效区分,从而容易导致误检或漏检 [5,11]。在特定应用场景中,例如农业环境下对作物与杂草的区分 [25],或城市环境中对相似目标的识别 [19],复杂背景带来的挑战则更加突出。
另外,多样的环境变化,如光照、天气(雨、雾)以及目标或场景的遮挡,显著降低了目标检测算法的鲁棒性。不同的光照条件会改变目标的视觉特征;恶劣天气可能导致图像质量下降;而由建筑物、树木或其他目标造成的遮挡则可能使部分目标信息丢失,这些都极大影响了模型对目标特征的提取和识别 [5]。在极端或复杂环境下,例如灾害救援场景中,检测系统必须应对复杂地形、不稳定飞行以及通信受限等多重挑战,这些外部因素进一步加剧了检测难度 [14,27]。
此外,计算资源有限与实时性要求之间的矛盾也是无人机载目标检测系统面临的重要约束。无人机平台通常受到计算能力和存储空间的限制,而许多低空经济应用(如实时监控、应急响应)对目标检测的实时性要求较高。因此,必须在模型复杂度、检测精度与处理速度之间取得平衡。高精度模型往往计算量庞大,难以在资源受限的平台上实现实时部署;而轻量级模型则可能牺牲部分检测精度 [5]。同时,如何高效处理无人机产生的大量高分辨率图像数据,包括数据传输、存储及快速处理,也是实现实时检测的关键挑战 [5,16]。
除了上述核心技术挑战,无人机遥感图像目标检测还面临一些共性问题。数据标注成本高昂是一大突出问题,高质量且大规模的标注数据往往需要投入大量人力和时间;模型泛化能力有限,即使在训练数据分布之外的场景或目标上,模型性能也可能显著下降,从而难以满足低空经济应用的广泛需求;此外,目前多数基于深度学习的模型可解释性不足,难以阐明其决策过程,这在对安全性和可靠性要求极高的应用中可能构成障碍。
上述技术挑战及其衍生问题,直接影响了无人机遥感图像目标检测技术在低空经济应用中的可靠性和普及性。小目标漏检、复杂背景引起的误检、环境变化导致的性能波动以及无法满足实时性要求,都可能降低检测结果的可信度,从而限制其在精准农业、基础设施巡检、应急响应等领域的有效应用。高昂的数据标注成本和有限的模型泛化能力也在一定程度上阻碍了该技术的快速部署与规模化推广。克服这些挑战是推动无人机遥感图像目标检测技术成熟并实现低空经济蓬勃发展的关键。
8.2 未来发展方向
面向低空经济应用的无人机遥感图像目标检测技术正处于快速发展阶段。未来的研究将聚焦于解决当前面临的挑战,并探索新的技术范式,以提升检测性能、适应多样化应用场景并确保系统的可靠性与安全性。综合现有研究,未来发展方向主要体现在以下几个方面。
首先,模型的高效化与轻量化是实现无人机边缘端部署的关键。考虑到无人机载荷能力和计算资源的限制,未来的研究需要设计更加轻量级的网络结构 [5],优化模型参数,减少计算量和存储需求 [5,8]。这不仅有助于在嵌入式设备上实现实时目标检测 [5,12],还能降低能耗,延长无人机续航时间 [27]。
其次,多模态数据融合被认为是提升目标检测准确性和鲁棒性的重要途径。通过融合来自不同传感器(如光学、红外、LiDAR)或不同类型信息(如图像、文本、声音)的数据 [8],可以利用它们之间的互补优势,特别是在复杂环境或目标特征不明显的情况下 [8]。未来的工作将探索更有效的数据融合策略,以充分挖掘多源数据的潜力 [12,14]。将目标检测与图像分割、场景理解等任务相结合,实现端到端的目标检测和识别,也是提升系统综合能力的方向 [5]。
第三,为缓解大规模数据集标注成本高昂的问题,弱监督、半监督和无监督学习方法展现出巨大潜力 [8,12]。未来的研究将致力于利用更少或标注信息不完整的样本进行模型训练 [8],甚至探索无监督学习方法,使模型能够从大量未标注数据中进行自我学习和进化 [8],从而降低数据获取和处理的门槛。跨域学习和迁移学习的应用也将有助于将在大规模通用数据集上预训练的模型快速适应到特定的无人机遥感任务中 [12]。
第四,构建适应分布式系统的边缘计算与协同智能框架是应对大规模低空应用场景需求的必然趋势。通过在无人机本地进行部分计算,减轻中心服务器的负担,同时探索多无人机协同作业模式 [27],实现任务分配、信息共享和协同感知,有望大幅提升监测范围和效率。建立统一的应急响应或业务平台,整合多源无人机数据与其他地理信息技术(如GIS、BIM) [26],以及探索应急自组网通信系统 [30],将有助于构建更加智能化和高效的低空作业系统。
第五,紧随人工智能发展前沿,将目标检测与多模态大模型结合的可能性值得探索。未来研究可关注如何利用大模型的强大特征提取和语义理解能力,提升无人机遥感图像目标检测的泛化能力和复杂场景适应性 [22]。同时,对特定目标尺度的优化,特别是小目标检测 [12],仍是重要的研究方向,需进一步优化模型结构 [12,22]、利用上下文信息和全局感知能力 [12],以及探索更有效的特征提取方法 [22]。将目标检测扩展到三维空间,实现更精确的定位和姿态估计,也是未来的重要课题 [8]。
最后,模型的可解释性、数据的安全性和隐私保护,以及符合法规要求等非技术因素的重要性日益凸显。未来的研究不仅要追求技术性能的提升,还需要提高模型决策过程的透明度和可信度 [12]。同时,建立统一的评估标准和数据集 [12],以及解决数据处理和隐私保护等问题 [16],对于推动无人机遥感技术在低空经济中的健康可持续发展至关重要 [26]。技术支持和与现有地理信息技术的集成也将为无人机遥感技术提供更广阔的应用前景 [16,26],例如在精准农业和应急救援等领域拓展应用场景 [14,25,27]。
9. 结论
无人机遥感图像目标检测技术作为低空经济发展的关键赋能工具,其重要性不断凸显,并在多个领域展现出巨大应用潜力,相关案例包括 [9,14,15,16,25,26,27,29,30]。从农作物生长监测和精准农业 [16,25],到应急救援和灾后评估 [14,27,30],再到基础设施巡检 [9],无人机遥感图像目标检测技术的应用不断拓宽低空空域的使用范围,从而提高了作业效率和数据获取能力。
近年来,基于深度学习的目标检测方法已成为无人机遥感图像目标检测领域的主流技术,相关研究包括 [2,6,12,17,19,22]。研究人员针对无人机图像中存在的小目标检测困难、目标尺度多样、背景复杂、类间相似性高以及目标密集排列等挑战,对现有深度学习模型进行了多方面改进,部分工作参见 [3,18]。改进方法主要包括优化模型结构、增强特征表达能力和改进检测策略,例如通过浅层特征增强与二次特征融合 [17],以及改进候选框生成或关键点回归 [6]等方式提升小目标检测性能。针对遥感图像中目标尺度变化大及密集排列的问题,研究人员提出了多尺度特征融合技术,同时改进Neck网络和损失函数 [18]。此外,包括基于可变形卷积、混合注意力机制以及加权NMS的模型融合策略在内的多种方法已被证明可有效处理复杂背景和尺度变化问题 [3]。另有研究探索了Anchor-free方法以避免锚框超参数设置 [17],或通过构建CNN与R-CNN组合模型来提高检测精度和实时性 [22]。改进后的YOLO系列模型(如YOLOv5、YOLOv8及其变体)因其速度与精度兼具而在无人机遥感图像目标检测中得到广泛应用,并通过改进算法(如ASF-WIoU-YOLOv8、VTO-YOLOv8)进一步提升了检测精度和效率,甚至实现了嵌入式部署的可能性 [1,13,19]。部分研究还专注于提高实时性,例如提出的MMFE网络在保证准确性的同时实现了较高帧率 [11]。这些技术进展显著推动了无人机遥感图像目标检测技术的发展与应用。
尽管取得了显著进展,但无人机遥感图像目标检测技术仍面临诸多挑战。小目标的高精度实时检测依然是核心难题 [2,12]。目标尺度变化大、复杂背景干扰、目标间高度相似以及目标密集排列均对模型的鲁棒性提出了更高要求 [3]。在实际应用中,如灾害救援 [27]或农业监测 [25],对检测系统的实时性、准确性及对恶劣环境的适应能力亦存在严峻挑战。此外,现有方法的可解释性、对计算资源的依赖,以及大规模数据集的获取和标注成本,均是进一步推广应用过程中的制约因素。
展望未来,无人机遥感图像目标检测技术将持续深化发展,更好地服务于蓬勃发展的低空经济。未来研究方向和发展趋势主要包括:一是持续优化深度学习模型,特别是针对小目标、密集目标和极端尺度变化情形下的检测性能,探索更高效、更轻量化的网络结构与检测策略 [12];二是增强模型的实时处理能力,以满足无人机平台对计算资源与时延的严格要求,推动模型在嵌入式端及边缘计算中的应用 [11,19];三是提升模型在复杂与未知环境下的泛化能力和鲁棒性,研究域适应、零样本及少样本学习等技术;四是探索多模态数据融合,结合可见光、红外、高光谱等多种传感器数据,实现对目标信息的更全面获取;五是加强对模型可解释性的研究,提升检测结果的可信度和用户接受度;六是结合低空经济具体应用需求,发展面向特定场景的专业化检测算法,如精准农业航空技术 [25]、智能巡检及自动化应急响应等;七是构建更大规模、更高质量的标注数据集,特别是涵盖极端条件和多样化目标的无人机遥感图像数据集,以支撑模型训练与验证;八是综合考虑技术创新、应用需求以及相关法规和标准 [27],推动技术成熟和产业化发展。随着低空经济相关政策的不断出台和通用航空产业的快速发展 [15],对无人机遥感图像目标检测技术的需求将不断提升,并为该领域的进一步探索指明方向,拓宽应用空间 [2]。
References
[1] 基于ASF-WIoU-YOLOv8的无人机航拍图像多目标检测 https://image.hanspub.org/Html/14-1543238_88344.htm
[2] 深度学习驱动的无人机航拍图像小目标检测研究进展 https://hkxb.buaa.edu.cn/CN/10.7527/S1000-6893.2024.30848
[3] 基于深度学习的无人机航拍图像目标检测 https://wap.cnki.net/lunwen-1019129221.html
[4] 基于深度学习的航拍图像目标检测算法研究 https://read.cnki.net/web/Dissertation/Article/1020396468.nh.html
[5] 无人机图像目标检测技术详解与未来发展 https://baijiahao.baidu.com/s?id=1805333218377856171&wfr=spider&for=pc
[6] 基于深度学习的小目标检测研究 https://wap.cnki.net/lunwen-1020812065.html
[7] 多尺度空洞卷积无人机影像目标检测方法 http://ch.whu.edu.cn/article/doi/10.13203/j.whugis20200253?viewType=citedby-info
[8] 目标检测算法研究现状及发展趋势 https://blog.csdn.net/kunpengtingting/article/details/140091418
[9] 低空经济与无人机空中巡检商业模式浅析 https://m.youuav.com/news/detail/202501/60237.html
[10] 深度学习小目标检测方法汇总 https://juejin.cn/post/7463301526800416804
[11] 无人机遥感图像实时小目标检测方法 https://read.cnki.net/web/Journal/Article/HKXB202414005.html
[12] 深度学习在小目标检测中的应用 https://www.elecfans.com/d/3725186.html
[13] Safari 浏览器导出功能受限,建议更换浏览器 https://d.wanfangdata.com.cn/periodical/bdtgd202403025
[14] HC-541无人机:京津冀洪涝灾害应急通信利器 https://mp.weixin.qq.com/s?__biz=MzUxODY0MTAzOA==&mid=2247496071&idx=2&sn=a57c95921389ab0855c9bbd5ed803e53&chksm=f88f04a48b797e6bd6f58b1ba67c5433d6b125d633d6a6b778b4552c09debea08cc4210552e2&scene=27
[15] 长江证券:低空经济政策频发,检测行业有望率先受益 https://baijiahao.baidu.com/s?id=1794828710134073604&wfr=spider&for=pc
[16] 无人机遥感技术助力农作物生长监测 https://baijiahao.baidu.com/s?id=1771298361998026483&wfr=spider&for=pc
[17] 基于深度学习的小目标检测算法研究 https://wap.cnki.net/lunwen-1023561199.html
[18] 中国知网:期刊、图书、工具书、文献资源 https://mall.cnki.net/magazine/article/JSJA202403021.htm
[19] 基于深度学习的遥感图像飞机目标检测技术研究 https://mall.cnki.net/magazine/Article/CMFD/1024433629.htm
[21] 深度学习目标检测算法比较:RCNN, Fast R-CNN, Faster R-CNN, YOLO, https://download.csdn.net/blog/column/12444742/133054834
[22] 基于深度学习的无人机视觉目标检测方法研究 https://www.renrendoc.com/paper/411396647.html
[26] 低空经济新动力:平民化航测的机遇与挑战 https://baijiahao.baidu.com/s?id=1811997484889787643&wfr=spider&for=pc
[27] 科技助力泸定地震救援:无人机与遥感卫星显神威 https://baijiahao.baidu.com/s?id=1743305859255387759&wfr=spider&for=pc
[29] 低空经济爆火:九大应用案例“含金量”满满 https://baijiahao.baidu.com/s?id=1828763970430764120&wfr=spider&for=pc
[30] QP530/532无人机:高原“三断”场景下的应急救援实战验证 https://mp.weixin.qq.com/s?__biz=MzUxODY0MTAzOA==&mid=2247496188&idx=1&sn=e29a541ddb6babdc2d9077ee187c782c&chksm=f8d0de566e53091e0a6ad94fdce1e01ba85e61e9417db0a1cf8f07f62b35cc302be34ee25ec3&scene=27