Revue d'articles FarSee-Net - une nouvelle approche de la segmentation sémantique en temps réel

Dans cet article, les auteurs proposent l'architecture de mise en commun des pyramides spatiales atreuses factorisées en cascade (CF-ASPP) pour la segmentation sémantique en temps réel. Le nouveau module CF-ASPP et l'utilisation de la super-résolution améliorent le compromis de précision de latence. L'examen a été préparé par le développeur principal de MTS Andrey Lukyanenko.

image

La segmentation sémantique en temps réel est essentielle pour de nombreuses tâches effectuées sur des ressources limitées. L'une des grandes difficultés est de travailler avec des objets de différentes tailles et d'utiliser le contexte. Dans cet article, les auteurs proposent l'architecture de mise en commun de la pyramide spatiale atreuse factorisée en cascade (CF-ASPP).

De nos jours, une approche courante consiste à réduire rapidement la taille des images dans les étapes initiales, puis le masque de la taille d'origine est obtenu par suréchantillonnage. Les auteurs suggèrent d'utiliser des approches de super-résolution au lieu d'un simple suréchantillonnage.

Le nouveau module et l'utilisation de la super-résolution peuvent améliorer le compromis de précision de latence.

Dans la terminologie des auteurs, le réseau formé pour l'extraction de fonctionnalités est appelé le réseau frontal, et le reste est appelé le réseau principal.

image

Justification des améliorations

Étant donné qu'un même objet dans différentes images peut avoir des tailles différentes, il est très important de pouvoir utiliser efficacement les informations contextuelles, en particulier pour les objets petits et étroits. Le front-end fait généralement une agrégation de contexte à partir de plusieurs échelles. Mais généralement, ces modules fonctionnent à des niveaux profonds de réseaux de neurones, où le nombre de canaux est élevé. Par conséquent, même les couches convolutives avec une taille de noyau de 3 nécessitent beaucoup de ressources informatiques. Par conséquent, les auteurs proposent leur propre module, ce qui le rend plus efficace.

Un autre problème d'arrière-plan pour la segmentation sémantique est que les cartes d'entités ont une dimension spatiale significativement plus petite après le front-end. De plus, de nombreuses approches utilisent des images de taille réduite pour augmenter la vitesse. En conséquence, la taille est encore plus petite. Les auteurs suggèrent d'utiliser un masque de taille originale pour la supervision pendant la formation. La super-résolution vous permet de restaurer efficacement un masque haute résolution à partir d'un masque basse résolution.

L'essence des améliorations

Tout maillage formé, tel que VGG, ResNet, MobileNet, peut être utilisé comme frontal.

Le tout est back-end:

image

ASPP factorisé en cascade

Les convolutions atreuses sont souvent utilisées dans la segmentation sémantique - leur différence par rapport à l'approche standard est que r - 1 zéros sont ajoutés entre les filtres. Cela vous permet d'augmenter considérablement la visibilité de chaque filtre sans augmenter les coûts de calcul. Mais comme de terribles convolutions s'appliquent aux grandes cartes d'entités, l'informatique est toujours coûteuse.

Les auteurs proposent de décomposer une convolution atreuse 3 × 3 en 2 parties: une convolution point par point pour réduire le nombre de canaux, puis une convolution en profondeur et atreuse pour réduire le temps de calcul. En conséquence, environ 8,8 fois moins de calculs sont nécessaires.

De plus, le module ASPP est appliqué deux fois en cascade. D'une part, le modèle reçoit plus de contextes d'échelles différentes, d'autre part, des images plus petites arrivent au deuxième ASPP, donc la grille ne ralentit pas beaucoup, mais la précision augmente.

Fonctionnalité Super-résolution de l'espace

En raison de l'opération frontale, la taille de l'image est considérablement réduite et nous devons obtenir un résultat haute résolution sur la base de cette image réduite. Les auteurs utilisent pour cela l'approche de super-résolution.

Au stade de la formation, une miniature est utilisée comme entrée et l'image d'origine est utilisée comme vérité de terrain.

Dans le module, le suréchantillonnage d'arrière-plan est effectué en utilisant la convolution sous-pixel, qui est juste utilisée dans les tâches de super-résolution.

image

Expériences

En tant qu'ensemble de données, des paysages urbains ont été utilisés. Le code a été écrit dans Pytorch 1.1, CuDNN v7.0. L'interférence a été effectuée sur Nvidia Titan X (Maxwell). ResNet-18 utilisé comme maillage formé. Les fonctionnalités ont été extraites de la dernière couche avant le regroupement moyen et de la couche conv3_x.
SGD, 400 époques et de nombreuses augmentations.

Étude d'ablation sur la structure du réseau

image

Testé 4 approches:

  1. Front-end - ResNet-18, back-end - ASPP, décodeur - DeeplabV3 +
  2. Front-end - ResNet-18, back-end - un F-ASPP, décodeur - DeeplabV3 +
  3. Front-end - ResNet-18, back-end - CF-ASPP (sans résolution d'espace de fonctionnalité)
  4. L'approche complète.

Comparaison avec d'autres approches

image

La qualité est vraiment élevée et le taux d'inférence est presque le meilleur.

image

All Articles