> 文章列表 > Super Yolo论文翻译

Super Yolo论文翻译

Super Yolo论文翻译

论文:SuperYOLO: Super Resolution Assisted Object Detection in Multimodal Remote Sensing Imagery【IEEE】

论文地址:[2209.13351] SuperYOLO: Super Resolution Assisted Object Detection in Multimodal Remote Sensing Imagery (arxiv.org)

项目地址:icey-zhang/SuperYOLO: SuperYOLO (github.com)

1、摘要

        利用遥感图像(RSI)精确检测多尺度小目标并实现实时检测仍然具有挑战性,特别是在军事侦察和应急救援等时间敏感任务中。为了对这些小目标进行精确定位和分类,最适用的解决方案之一是融合多模态图像中的互补信息,以提高检测能力。现有的大多数解决方案主要是设计复杂的深度神经网络来学习从背景中分离出来的物体的强特征表示,这往往导致沉重的计算负担。

        本文提出了一种精确快速的RSI小目标检测方法SuperYOLO,该方法融合多模态数据,利用辅助超分辨率学习,兼顾检测精度和计算成本,对多尺度目标进行高分辨率(HR)目标检测。首先,我们通过移除Focus模块构建一个紧凑的基线,以保留HR特征,并显著克服小目标的缺失误差。其次,我们利用像素级多模态融合(MF)从各种数据中提取信息,以获得更适合和有效的RSI小目标特征。此外,我们设计了一个简单而灵活的SR分支来学习HR特征表示,可以在低分辨率(LR)输入的大背景下区分小物体,从而进一步提高检测精度。此外,为了避免引入额外的计算,在推理阶段丢弃SR分支,并且由于LR输入减少了网络模型的计算。

        实验结果表明,在广泛使用的VEDAI RS数据集上,SuperYOLO的准确率达到了73.61%(以mAP50计算),比SOTA大型模型如YOLOv5l、YOLOv5x和RS设计的YOLOrs提高了10%以上。同时,SuperYOLO的GFOLPs和参数大小分别比YOLOv5x小18.1倍和4.2倍。与最先进的模型相比,我们提出的模型显示了良好的精度和速度权衡。

2、介绍

        物体检测在涉及计算机辅助诊断或自主驾驶的各个领域发挥着重要作用。在过去的几十年里,许多优秀的基于深度神经网络(DNN)的目标检测框架[1]、[2]、[3]、[4]、[5]在计算机视觉领域被提出、更新和优化。基于DNN的目标检测框架的精度显著提高得益于大规模自然数据集的应用,这些数据集具有准确的[6],[7],[8]注释。 

待续。。。。。。       

[1] R. Girshick, D. Jeff, D. Trevor, and M. Jitendra, “Rich feature hierarchies for accurate object detection and semantic segmentation,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), 2014, pp. 580–587.【R. Girshick, D. Jeff, D. Trevor,和M. Jitendra,“精确目标检测和语义分割的丰富特征层次结构”,在Proc. IEEE Conf.计算。视觉模式识别。(CVPR), 2014, pp. 580-587。】

[2] R. Girshick, “Fast r-cnn,” in Proc. IEEE Int. Conf. Comput. Vis., 2015, pp. 1440–1448.【R.Girshick,《快速反应》,《美国国家科学院院刊》。IEEE国际会议计算。可见。,2015年,第1440-1448页。】

[3] J. Redmon, S. Divvala, R. Girshick, and A. Farhadi, “You only look once: Unified, real-time object detection,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), 2016, pp. 779–788.【J.Redmon、S.Divvala、R.Girschick和A.Farhadi,《Proc。IEEE会议计算。视觉。模式识别器。(CVPR),2016年,第779-788页。】

[4] P. Tang, X. Wang, X. Bai, and W. Liu, “Multiple instance detection network with online instance classifier refinement,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), 2017, pp. 3059–3067.【P.Tang、X.Wang、X.Bai和W.Liu,“具有在线实例分类器精化的多实例检测网络”,Proc。IEEE会议计算。视觉。模式识别器。(CVPR),2017年,第3059–3067页。】

[5] S. Ren, K. He, R. Girshick, and J. Sun, “Faster r-cnn: towards real-time object detection with region proposal networks,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 39, no. 6, pp. 1137–1149, 2016.【S.Ren、K.He、R.Girschick和J.Sun,“更快的R-cnn:使用区域建议网络实现实时对象检测”,IEEE Trans。模式分析。机器。整数。,第39卷,第6期,第1137-1149页,2016年。】

[6] D. Jia, D. Wei, R. Socher, J. Lili, K. Li, and F. Li, “ImageNet: A largescale hierarchical image database,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), 2009, pp. 248–255.【D.Jia、D.Wei、R.Socher、J.Lili、K.Li和F.Li,“ImageNet:一个大规模层次图像数据库”,发表在Proc。IEEE会议计算。视觉。模式识别器。(CVPR),2009年,第248–255页。】

[7] T. Lin, M. Maire, S. Belongie, J. Hays, P. Perona, D. Ramanan, P. Dollar, and C. L. Zitnick, “Microsoft coco: Common objects in context,” in Proc. Eur. Conf. Comput. Vis., 2014, pp. 740–755.【T.Lin、M.Maire、S.Belongie、J.Hays、P.Perona、D.Ramanan、P.Dollar和C.L.Zitnick,“微软可可:上下文中的公共对象”,Proc。欧洲会议计算。可见。,2014年,第740–755页。】

[8] M. Everingham, L. Van Gool, C. K. I. Williams, J. Winn, and A. Zisserman, “The pascal visual object classes (VOC) challenge,” Int. J. Comput. Vis., vol. 88, no. 2, pp. 303–338, 2010.【M.Everingham、L.Van Gool、C.K.I.Williams、J.Winn和A.Zisserman,“帕斯卡尔视觉对象类(VOC)挑战”,国际计算机学会。可见。,第88卷,第2期,第303–338页,2010年。】