Nouvelle architecture de réseau neuronal - EfficientDet

Bonjour, Habr! Je vous présente l'analyse de l'article "EfficientDet: Détection d'objet évolutive et efficace" de Mingxing Tan, Ruoming Pang, Quoc V. Le.

Ces dernières années, d'énormes progrès ont été accomplis vers une détection plus précise des objets, tandis que les détecteurs d'objets modernes deviennent également plus chers. Le coût des processus de calcul et des calculs coûteux entravent leur déploiement dans de nombreuses applications du monde réel, telles que la robotique et les voitures à pilote automatique, où la taille et le retard du modèle sont sévèrement limités. Compte tenu de ces ressources réelles limitées, l'efficacité du modèle devient de plus en plus importante pour la détection d'objets.
Il y a eu de nombreux travaux antérieurs visant à développer des architectures de détecteurs plus efficaces. Souvent, ces travaux ont tendance à être plus efficaces et à sacrifier la précision. Une question naturelle se pose: est-il possible de construire une architecture de détection évolutive avec une plus grande précision et une plus grande efficacité avec un large éventail de limitations de ressources? Les créateurs d'EfficientDet pensent avoir trouvé la réponse à cette question.

EfficientDet: Détection d'objet évolutive et efficace


image

Le tableau ci-dessus montre qu'EfficientDet
atteint une précision beaucoup plus élevée avec moins de calculs
que les autres détecteurs.

Qu'est-ce que l'architecture EfficientDet?


image
L'architecture globale d'EfficientDet est largement conforme au paradigme des détecteurs à un étage (un étage). Basé sur EfficientNet, pré-formé sur ImageNet, une couche avec une
pyramide d'entités bidirectionnelle pondérée (BiFPN) est attachée à celle - ci , suivie par un réseau de classes et de blocs pour générer des prédictions de classes d'objets et une boîte englobante, respectivement.

Un peu sur BiFPN:


L'idée de créer une pyramide de caractéristiques bidirectionnelle est née après avoir étudié les performances et l'efficacité du réseau pour améliorer la mise à l'échelle: FPN, PANet et NAS-FPN. PANet atteint une meilleure précision que FPN et NAS-FPN, mais au prix de plus de paramètres et de calculs. Pour améliorer l'efficacité du modèle, plusieurs optimisations pour les connexions entre échelles ont été proposées:
  • -, , . : , , . PANet, 2 ();
  • -, , , , 2 ();
  • -, PANet, , ( ) , .

image
Conception du réseau d'
entités - (a) Le FPN introduit une voie descendante pour fusionner les fonctions multi-échelles du niveau 3 au 7 (P3 - P7);
(b) PANet ajoute un chemin ascendant supplémentaire au-dessus du FPN;
© NAS-FPN utilise une architecture de
recherche neuronale pour rechercher une topologie de réseau irrégulière d'objets;
(d) ajouter des connexions coûteuses de toutes les fonctionnalités d'entrée aux fonctionnalités de sortie;
(e) simplifie le panneau en supprimant certains nœuds;
(f) notre BiFPN avec de meilleurs compromis de précision et d'efficacité.

image
Le tableau montre comment, à partir de RetinaNet (ResNet50 + FPN), l'encodeur a été remplacé par EfficientNet-B3, puis le FPN de base a été remplacé par BiFPN, la précision a augmenté à chaque changement.

image
EfficientDet utilise également une fonction délicate au lieu de SoftMax, qui est basée sur la méthode de normalisation de fusion rapide, qui offre la même précision qu'une fusion basée sur Softmax, mais s'exécute 1,26-1,31 fois plus rapidement sur les GPU.

image
Les performances de classification d'images ont également été améliorées en augmentant conjointement toutes les tailles de réseau, la profondeur et la résolution d'entrée.
Le graphique présente une comparaison des différentes méthodes de mise à l'échelle. Toutes les méthodes améliorent la précision, mais une méthode de mise à l'échelle complète offre un meilleur compromis précision et efficacité.

image
Dans la figure, vous pouvez voir une comparaison de la taille du modèle et du
retard de sortie: le retard est mesuré avec la taille du lot 1 sur la même machine,
équipé d'un GPU Titan V et d'un processeur Xeon. AN signifie AmoebaNet + NAS-FPN, pré-formé avec Augmentation.

Conclusion:


À la suite d'une étude systématique de diverses options de conception d'une architecture de réseau pour une détection efficace des objets, un réseau fonctionnel bidirectionnel pondéré et une méthode de mise à l'échelle composite personnalisée sont proposés pour augmenter la précision et l'efficacité. Sur la base de ces optimisations, une nouvelle famille de détecteurs, appelée EfficientDet, a été développée pour atteindre systématiquement une précision et une efficacité supérieures à celles de l'art antérieur, avec un large éventail de limites de ressources. En particulier, notre EfficientDet-D7 atteint une précision de pointe avec moins de paramètres et de FLOPS que le meilleur des détecteurs existants. EfficientDet est également 3,2 fois plus rapide sur le GPU et 8,1 fois plus rapide sur le CPU.

Source: Mingxing Tan Ruoming Pang Quoc V. Le
Google Research, Brain Team "EfficientDet: Détection d'objets évolutive et efficace"
arxiv.org/abs/1911.09070

All Articles