FarSee-Net文章评论-实时语义分割的新方法

在本文中,作者提出了用于实时语义分割的级联分解式原子空间金字塔池(CF-ASPP)体系结构。新的CF-ASPP模块和超分辨率的使用改善了延迟精度的权衡。该评论由MTS Andrey Lukyanenko的主要开发人员编写。

图片

对于在有限资源上执行的许多任务而言,实时语义分段至关重要。最大的困难之一是使用不同大小的对象并使用上下文。在本文中,作者提出了级联分解的原子空间金字塔池(CF-ASPP)体系结构。

如今,一种常见的方法是在初始阶段快速减小图像的大小,然后使用上采样获得原始大小的蒙版。作者建议使用超分辨率方法而不是简单的上采样。

新模块和超分辨率的使用可以改善延迟精度的权衡。

用作者的术语来说,训练有素的用于特征提取的网络称为前端网络,其余的称为后端网络。

图片

改进的理由

由于不同图片中的同一对象可能具有不同的大小,因此能够有效地使用上下文信息非常重要,特别是对于狭窄的小对象。前端通常从多个尺度进行上下文聚合。但是通常,这些模块在较高数量的通道的深层神经网络中工作。结果,即使内核大小为3的卷积层也需要大量的计算资源。因此,作者提出了自己的模块,从而使其更有效。

语义分割的另一个后端问题是,特征图在前端之后的空间尺寸明显较小。另外,许多方法使用尺寸减小的图像来提高速度。结果,尺寸甚至更小。作者建议在训练期间使用原始尺寸的口罩进行监督。超分辨率可让您从低分辨率蒙版中有效地还原高分辨率蒙版。

改进的实质

任何经过训练的网格(例如VGG,ResNet,MobileNet)都可以用作前端。

重点是后端:

图片

级联分解式ASPP

Atrous卷积通常用于语义分割中-与标准方法的不同之处在于,在过滤器之间添加了r-1个零。这使您可以显着提高每个过滤器的可见性,而无需增加计算成本。但是由于无穷卷积适用于大型特征图,因此计算仍然很昂贵。

作者建议将3×3无规卷积分解为2部分:逐点卷积以减少通道数,然后按深度卷积和无规卷积以减少计算开销。结果,所需的计算量减少了大约8.8倍。

另外,ASPP模块被级联应用两次。一方面,模型接收更多不同比例的上下文,另一方面,较小的图像出现在第二个ASPP上,因此网格不会减慢太多,并且精度提高了。

特征空间超分辨率

作为前端操作的结果,图像尺寸大大减小了,我们需要基于该缩小的图像获得高分辨率结果。作者为此使用了超分辨率方法。

在训练阶段,将缩略图用作输入,并将原始图像用作地面真理。

在模块中,后端升采样是使用亚像素卷积完成的,亚像素卷积仅用于超分辨率任务。

图片

实验

作为数据集,使用了城市景观。该代码是用Pytorch 1.1,CuDNN v7.0编写的。干扰是在Nvidia Titan X(Maxwell)上完成的。使用ResNet-18作为训练有素的网格。特征取自平均池之前的最后一层以及conv3_x层。
SGD,400个时代和许多扩充功能。

网络结构消融

图片

测试的4种方法:

  1. 前端-ResNet-18,后端-ASPP,解码器-DeeplabV3 +
  2. 前端-ResNet-18,后端-一个F-ASPP,解码器-DeeplabV3 +
  3. 前端-ResNet-18,后端-CF-ASPP(无功能空间分辨率)
  4. 完整的方法。

与其他方法的比较

图片

:质量确实很高,推理率几乎是最好的。

图片

All Articles