Revisión del artículo FarSee-Net: un nuevo enfoque para la segmentación semántica en tiempo real

En este artículo, los autores proponen la arquitectura de agrupación de pirámides espaciales factoriales en cascada (CF-ASPP) para la segmentación semántica en tiempo real. El nuevo módulo CF-ASPP y el uso de la súper resolución mejoran la compensación de la latencia y la precisión. La revisión fue preparada por el desarrollador líder de MTS Andrey Lukyanenko.

imagen

La segmentación semántica en tiempo real es esencial para muchas tareas realizadas con recursos limitados. Una de las grandes dificultades es trabajar con objetos de diferentes tamaños y usar el contexto. En este artículo, los autores proponen la arquitectura de agrupación de pirámides espaciales atroces factorizadas en cascada (CF-ASPP).

Hoy en día, un enfoque común es reducir rápidamente el tamaño de las imágenes en las etapas iniciales, y luego se obtiene la máscara del tamaño original mediante el muestreo ascendente. Los autores proponen el uso de enfoques de superresolución en lugar de un muestreo simple.

El nuevo módulo y el uso de la súper resolución pueden mejorar el equilibrio entre la precisión de la latencia.

En la terminología de los autores, la red capacitada para la extracción de características se denomina red front-end y el resto se denomina red back-end.

imagen

Justificación de las mejoras

Dado que el mismo objeto en diferentes imágenes puede tener diferentes tamaños, es muy importante poder utilizar eficazmente la información contextual, especialmente para objetos pequeños y estrechos. El front-end típicamente hace agregación de contexto desde múltiples escalas. Pero generalmente estos módulos funcionan en niveles profundos de redes neuronales, donde el número de canales es alto. Como resultado, incluso las capas convolucionales con un tamaño de núcleo de 3 requieren muchos recursos informáticos. Por lo tanto, los autores proponen su propio módulo, lo que lo hace más efectivo.

Otro problema de back-end para la segmentación semántica es que los mapas de características tienen una dimensión espacial significativamente menor después del front-end. Además, muchos enfoques usan imágenes con un tamaño reducido para aumentar la velocidad. Como resultado, el tamaño es aún más pequeño. Los autores sugieren usar una máscara de tamaño original para la supervisión durante el entrenamiento. La súper resolución le permite restaurar eficientemente una máscara de alta resolución desde una máscara de baja resolución.

La esencia de las mejoras

Cualquier malla entrenada, como VGG, ResNet, MobileNet, se puede utilizar como front-end.

Todo el punto es back-end:

imagen

ASPP factorizado en cascada

Las convoluciones atroces a menudo se usan en la segmentación semántica; su diferencia con el enfoque estándar es que se agregan ceros r - 1 entre los filtros. Esto le permite aumentar significativamente la visibilidad de cada filtro sin aumentar los costos computacionales. Pero dado que las convoluciones atroces se aplican a los mapas de características grandes, la informática sigue siendo costosa.

Los autores proponen descomponer una convolución atroz 3 × 3 en 2 partes: convolución puntual para reducir el número de canales, y luego convolución atroz y profunda para reducir la sobrecarga computacional. Como resultado, se requieren aproximadamente 8.8 veces menos cálculos.

Además, el módulo ASPP se aplica dos veces en cascada. Por un lado, el modelo recibe más contextos de diferentes escalas, por otro lado, las imágenes más pequeñas llegan al segundo ASPP, por lo que la cuadrícula no se ralentiza mucho, pero aumenta la precisión.

Feature Space Super-resolution

Como resultado de la operación de front-end, el tamaño de la imagen se reduce enormemente, y necesitamos obtener un resultado de alta resolución basado en esta imagen reducida. Los autores utilizan el enfoque de superresolución para esto.

En la etapa de entrenamiento, se usa una miniatura como entrada, y la imagen original se usa como verdad básica.

En el módulo, el muestreo de back-end se realiza mediante convolución de subpíxeles, que solo se utiliza en tareas de superresolución.

imagen

Los experimentos

Como conjunto de datos, se utilizaron paisajes urbanos. El código fue escrito en Pytorch 1.1, CuDNN v7.0. La interferencia se realizó en Nvidia Titan X (Maxwell). Usé ResNet-18 como una malla entrenada. Las características se tomaron de la última capa antes de la agrupación promedio y de la capa conv3_x.
SGD, 400 eras y muchos aumentos.

Estudio de ablación sobre estructura de red

imagen

Probado 4 enfoques:

  1. Front-end - ResNet-18, back-end - ASPP, decodificador - DeeplabV3 +
  2. Front-end - ResNet-18, back-end - un F-ASPP, decodificador - DeeplabV3 +
  3. Front-end - ResNet-18, back-end - CF-ASPP (sin resolución de espacio de funciones)
  4. El enfoque completo.

Comparación con otros enfoques:

imagen

la calidad es realmente alta y la tasa de inferencia es casi la mejor.

imagen

All Articles