YOLT:遥感图像多尺度检测
本文是对YOLT算法论文的总结和解读,论文主要是根据遥感卫星图的特点对YOLOv2的算法进行了改进,针对遥感卫星图目标检测的几个难点提出了解决方案
卫星遥感图像目标检测难点
文中主要总结了遥感图像目标检测中的四个难点
在遥感图像中,我们所感兴趣的目标往往是非常小且密集聚集的(比如树木,停车场的汽车之类的),而不像ImageNet数据集中那种典型的大而突出的物体
其次,遥感图像意味着从头顶观看,看到的对象可以有任何的方向,比如我们可以360度地去看一棵树的枝丫,但是在ImageNet数据集中的树都是竖直的能看到整棵树的
对于卫星遥感来说,还有一个问题就是,图像是巨大的,不能简单地降采样到常用的大多数算法需要的输入大小
下表是常用算法的输入大小和卫星遥感图像的大小
类别 | 大小 |
---|---|
Faster R-CNN | $1000 \times 600$ |
SSD | $300 \times 300$ 或 $512 \times 512$ |
YOLO | $416 \times 416$ 或 $544 \times 544$ |
卫星遥感图像 | $16000 \times 16000$ |
YOLO2的问题与YOLT的改进
文中作者用一张图来清晰地表示YOLT的针对性改进
图的左边是YOLO2的问题,右边是YOLT的改进
首先是YOLO2的泛化性问题,用YOLO2作者的话来说就是难以泛化物体至非常规状态 (遥感情况下360转圈),这个问题的解决方案就是扩充训练数据,缩放以及旋转
其次就是难点中提到的小目标检测问题,解决方案是构建一个最终网格更紧密的网络模型,对小目标上采样以及使用不同尺度的检测器,这些做法同样解决了YOLO2中多次下采样的问题
最后是尺度问题,解决方案有,图像切块以及不同尺度检测器结合
图像切块方法
作者将任意大小的测试图像分割成了可管理的切割块,用模型运行每个切割块,分块操作通过滑窗来实现,默认重叠15%
而在检测中,最后一步将这些块缝合到最终图像中,15%的重叠确保所有的区域被检测,但同时会导致切口边界上的重叠检测,文中采用了非最大值抑制应用于全局矩阵,减轻重叠检测
多尺度检测器
通用模型在不同尺度的目标上效果是较差的,比如上图的机场飞机检测就会出现目标的误检,所以文中基于不同尺度图像训练两个检测模型,通过融合不同模型的结果达到最优效果
网络模型
模型如下,采用22层的16倍下采样结构,用跳链来提高小目标的保真度,在最后一个卷积层上连接一个52*52层,以扩展特征图的细粒度特征