公司新闻

NEWS

m6米乐官网app登录航天宏图卫星数据进一步提升建筑属性估计精度

2024-12-23 07:10:06 | 来源:M6米乐最新下载地址 作者:米乐M6官方网站

  onal Geoscience and Remote Sensing Symposium (IGAS)是IEEE地球科学和遥感学会的旗舰会议。2023年7月16 ,第46届IGARSS大会在美国帕萨迪纳成功召开,发布了IEEE GRSS DFC 2023国际遥感数据融合大赛的结果和论文。来自中国、美国、瑞典、日本、印度、德国、比利时、泰国、土耳其等全球25个国家和地区的700余支队伍,经过为期三个月的初赛、决赛激烈角逐,航天宏图团队在“建筑物实例分割与屋顶细粒度分类”与“面向多任务学习的城市建筑物提取与高度估计”双赛道,均获得第一名的好成绩。

  在城市规划与建筑设计领域,建筑屋顶类型和高度是非常重要的元素之一,影响到建筑外观、功能、通风、采光、保温、防水等多个方面。正确的提取建筑的基底、高度、以及屋顶类型(如坡顶、平顶、圆顶、尖顶等),有助于高效地完成实景三维重建,为土地利用、空间分析、数字孪生等方面提供重要的参考数据,同时也可加强环境监测和资源管理,促进城市可持续发展。此外,在城市灾害和救援中,这些信息的准确性也很关键。当城市遭受地震、洪水等自然灾害时,往往会造成建筑物屋顶的破损和崩塌,如果能通过卫星影像快速地确定灾区的屋顶状况,可以为救援行动提供重要的信息和指导。

  传统的建筑检测、屋顶分类、高度估计方法往往依赖于地面实地勘测,因为受天气、光照、时间等因素的影响,存在效率低、成本高、精度差等问题,已无法满足现代需求。huang等人[1]验证代表性的单阶段 (SOLOv2)、两阶段 (Mask-RCNN、Cascade Mask RCNN) 和基于查询 (QueryInst) 的方法,这些方法在类似赛道一的屋顶检测分割数据集 UBC [1]中无法实现理想的性能。zheng[2]、xing[3]等人提出联合语义信息提高单一高度估计任务的学习,但与高度信息完全匹配的语义标签却难以获得,影响了高度估计的准确性。

  SAR雷达影像因为波长更长,可以穿透云层、雾、灰尘、霾和烟,克服了遥感光学影像受天气、光照、时间等干扰的不足。我们尝试将遥感可见光影像和SAR雷达影像这两种模态数据与相结合,研发全新的多模态建筑基底、屋顶类型、高度估计方法,实现更高精度的建筑属性自动提取方法。

  ▲图1.2 IEEE DFC 2023数据集,各种屋顶类别实例分布。灰、橙和蓝色分别代表大、中、小实例

  基于遥感多模态AI技术,航天宏图团队使用自监督预训练、双主干网络多模态表征、Modified Copy-Paste数据增强、实例分割多模型融合,抗长尾损失函数SeesawLoss等方法来应对上述挑战并实现高精度的建筑屋顶检测和分类的方法,在DFC 2023赛道一测试集以mAP50 50.6% 取得第一名成绩。

  本赛道遥感图像上的建筑屋顶具有目标特征微弱,不同屋顶间的特征边界模糊、不同类别屋顶数量极度不平衡等特点。为了提高模型区分目标前景和背景的能力从而提高模型的召回率,系统架构采用经典的端到端two stage实例分割算法Cascade Mask-RCNN[5]作为基础框架,网络结构如图2.1所示。相比于one stage的实例分割算法,two stage的RPN结构帮助模型能够更加细致的理解图特征,获得更多前景proposal从而更加有力的应对微弱特征目标。同时为了进一步加强模型特征提取能力,我们基于CBnetV2首次提出将目前的SOTA算法ConvNeXtV2进行dual-ConvNeXtV2结构的构建。为了应对训练数据存在的长尾分布场景,我们将定位损失GIoULoss与分类损失SeesawLoss相结合,有效地缓解了训练过程中占比较小类别的梯度会被头部类别淹没的问题。

  “优秀”的模型初始化策略在整个模型训练优化过程中占据了举足轻重的地位,可以让模型赢在起跑线。本次比赛为了进一步提高模型的收敛质量,提供高模型最终的表现,我们未使用以往的Imagenet22K预训练模型,而是在训练模型前对主干网络进行了自监督模型预训练,自监测预训练策略选用与ConvNeXtV2较为契合的FCMAE。

  本赛道用于训练的数据集包含数据样本数量为3000+,为了更好的提升模型的泛化能力,我们在数据增强策略上进行创新。基于实例分割提点利器Simple Copy-Paste基础上,我们提出Modified Copy-Paste,从粘贴实例角度喜欢数据增强环节,进一步增强数据增强能。并结合大尺度的图像输入,随机翻转,随机旋转等数据策略大大提升模型泛化到场景能力。

  模型推理阶段输入光学影像模态和SAR模态,输出建筑物屋顶的检测外接矩形框、屋顶类别及屋顶的多边形轮廓,模型具体表现如图2.2所示。

  屋顶检测与细粒度分类模型训练流程如图2.3所示。第一步进行ConvNeXtV2遥感影像域自适应预训练;第二步使用Modified copy-paste等数据加强进行检测器模型训练;第三步对模型进行去Modified copy-paste的微调;第四步进行SWA训练。接下来文章会根据训练的每个Step为线索,对所涉及的技术细节及创新性方案进行详细阐述。

  模型通过自监督预训练在训练正式开始前快速的适应场景数据,为后面的训练打下坚实的基础。该部分主要技术点在ConvNeXtV2及FCMAE。

  ConvNeXtV2[6]:该模型采用全卷积架构,模型通过全局特征聚合、特征标准化、特征校准等策略使得模型有着强悍的性能,一经提出就成为CV领域各大竞赛的宠儿。本次项目沿用ConvNeXtV2模型的整体架构,未作修改。

  FCMAE[7]:该方法是对于全卷积架构模型进行MIM预训练的方式,该方法引入稀疏卷积实现让卷积神经网络能够通过图像遮挡部位的图像还原来对图像数据进行建模,从而让模型对遥感屋顶建筑该领域的数据进行训练前的domainadaptation。从图2.4中可以看出,模型对与masked部分能通过自己的理解进行一定的合理性还原。

  ▲图2.4 FCMAE方法预训练过程数据破坏及重建可视化,original:数据原图,masked:被破坏后输入模型的数据形态,reconstruction:模型重建后的数据形态。

  模型的训练过程采用丰富的数据增强策略对构建起的检测器进行训练,我们使用的检测器是经典的Cacsace Mask Rcnn架构,并为了对抗长尾分布的训练数据集采用seesaw loss对分类头进行监督。这一部分我们主要侧重的技术点Dual-Backbone、Modified Copy-Paste及损失的使用。

  Dual-Backbone: 方案参考CBNet[8]网络结构,设计出两个稠密连接的Dual-ConvNeXtV2结构,如图2.5所示。两个子主干网络均为ConvNeXtV2-base网络,二者通过稠密连接的方式增强高维度低维度信息的融合及两个子主干网络间特征信息的融合。

  Modified Copy-Paste: 在检测器训练过程中,有效的数据增强策略能够提高检测器的鲁棒性。Simple Copy-Paste[9]是实例分割检测器的重要数据增强手段之一。Modified Copy-Paste对Simple Copy-Paste剪切下的实例进行旋转、翻转、缩放后再粘贴到目标图片数据上合成新的数据。因为遥感数据的特殊性,俯视拍摄的数据不会因为实例的旋转、翻转而破坏整个场景数据的语义信息。合成数据可见图2.6所示。

  SeesawLoss[10]: 降低检测器在长尾分布数据上性能的一个关键原因是施加在尾部类别上的正负样本梯度的比例是不均衡的,而 SeesawLoss 通过动态地抑制尾部类别上过量的负样本梯度,同时补充对误分类样本的惩罚,显著改进了尾部类别的分类准确率,进而提升检测器在长尾数据集上的整体性能。

  训练过程中,丰富的数据增强策略是把双刃剑,它不仅可以扩充数据集增强模型的泛化能力也可以从一定程度导致整体训练数据的domain shift,从而影响模型最终的能力。为了最大程度利用数据增强策略,弱化其负面影响,我们在实验中发现,经过多轮次训练后的模型可以通过关闭数据增强并使用小学习率进行微调来达到进一步提高精度的效果,精度提升效果具体可见表2.1。

  SWA(StochasticWeights Averaging)[11]:机器学习模型权重一般会收敛到一组最佳权重集合的边缘部分,而使用随机权重平均可以收敛到这个最佳权重集合的更中心位置,一般具有更好的平均表现和泛化水平。该策略可以对训练好的模型进行稳定,有助于比赛最终模型效果的稳定。

  表2.1 给出消融实验结果。我们在DFC2023赛道1复赛成绩 mAP50 50.6% 是通过不同超参数和骨干网下训练的多个强大检测器进行WSF 融合而获得的。从实验中,可以发现SeesawLoss带来0.18的提升;SCP可以在此基础上提点0.008;主干网络变为ConvNeXtV2并使用自监督域自适应预训练又有0.007个点的提升;SWA和MCP的使用分别有0.009和0.02的提升。但是, SAR 数据并没有增强模型性能,如表 2.1.* 所示,与单一光学模态输入相比,精度下降0.07。


m6米乐官网app登录
上一篇:第22次入选!大金再次获ECCJ节能大奖 下一篇:电厂设备缺陷管理(基础篇)有实例~