Nueva arquitectura de red neuronal - EfficientDet

Hola Habr! Les presento el análisis del artículo "EfficientDet: detección de objetos escalable y eficiente" de Mingxing Tan, Ruoming Pang, Quoc V. Le.

En los últimos años, se han hecho enormes progresos hacia una detección de objetos más precisa, mientras que los detectores de objetos modernos también se están volviendo más caros. El costo de los procesos computacionales y la costosa computación dificultan su implementación en muchas aplicaciones del mundo real, como la robótica y los autos de piloto automático, donde el tamaño y el retraso del modelo son muy limitados. Dados estos recursos limitados del mundo real, la eficiencia del modelo es cada vez más importante para la detección de objetos.
Ha habido muchos trabajos previos destinados a desarrollar arquitecturas de detectores más eficientes. A menudo, tales trabajos tienden a ser más eficientes, sacrificando la precisión. Surge una pregunta natural: ¿es posible construir una arquitectura de detección escalable con mayor precisión y mayor eficiencia con una amplia gama de limitaciones de recursos? Los creadores de EfficientDet creen que han encontrado la respuesta a esta pregunta.

EfficientDet: detección de objetos escalable y eficiente


imagen

La tabla anterior muestra que EfficientDet
logra una precisión mucho mayor con menos cálculos
que otros detectores.

¿Qué es la arquitectura EfficientDet?


imagen
La arquitectura general de EfficientDet es en gran medida consistente con el paradigma de los detectores de una etapa (una etapa). Basado en EfficientNet, pre-entrenado en ImageNet, se adjunta una capa con una
pirámide de características bidireccionales ponderadas (BiFPN), seguida de una red de clase y bloque para generar predicciones de clase de objeto y un cuadro delimitador, respectivamente.

Un poco sobre BiFPN:


La idea de crear una pirámide de características bidireccionales surgió después de estudiar el rendimiento y la eficiencia de la red para mejorar el escalado: FPN, PANet y NAS-FPN. PANet logra una mejor precisión que FPN y NAS-FPN, pero a costa de más parámetros y cálculos. Para mejorar la eficiencia del modelo, se propusieron varias optimizaciones para conexiones a escala cruzada:
  • -, , . : , , . PANet, 2 ();
  • -, , , , 2 ();
  • -, PANet, , ( ) , .

imagen
Diseño de red de
características : (a) FPN introduce una ruta descendente para fusionar características de multiescala del nivel 3 al 7 (P3 - P7);
(b) PANet agrega una ruta ascendente adicional en la parte superior de la FPN;
© NAS-FPN utiliza la arquitectura de
búsqueda neuronal para buscar una topología de red de objetos irregular;
(d) agregar conexiones costosas desde todas las características de entrada a las características de salida;
(e) simplifica el panel eliminando algunos nodos;
(f) nuestra BiFPN con mejores compromisos de precisión y eficiencia.

imagen
La tabla muestra cómo, comenzando con RetinaNet (ResNet50 + FPN), el codificador fue reemplazado por EfficientNet-B3, y luego el FPN base fue reemplazado por BiFPN, la precisión creció con cada cambio.

imagen
EfficientDet también utiliza una función complicada en lugar de SoftMax, que se basa en el método de normalización de fusión rápida, que proporciona la misma precisión que una fusión basada en Softmax, pero se ejecuta 1.26-1.31 veces más rápido en las GPU.

imagen
El rendimiento en la clasificación de imágenes también se ha mejorado al aumentar conjuntamente todos los tamaños de red, profundidad y resolución de entrada.
El gráfico muestra una comparación de diferentes métodos de escala. Todos los métodos mejoran la precisión, pero un método de escalado integral proporciona una mejor precisión y eficiencia de compromiso.

imagen
En la figura puede ver una comparación del tamaño del modelo y el
retraso de salida: el retraso se mide con el tamaño del lote 1 en la misma máquina,
equipado con una GPU Titan V y un procesador Xeon. AN significa AmoebaNet + NAS-FPN, pre-entrenado con Augmentation.

Conclusión:


Como resultado de un estudio sistemático de varias opciones para diseñar una arquitectura de red para la detección efectiva de objetos, se propone una red funcional bidireccional ponderada y un método de escala compuesto personalizado para aumentar la precisión y la eficiencia. En base a estas optimizaciones, se ha desarrollado una nueva familia de detectores llamada EfficientDet que consistentemente logra una mayor precisión y eficiencia que la técnica anterior, con una amplia gama de límites de recursos. En particular, nuestro EfficientDet-D7 logra una precisión de vanguardia con menos parámetros y FLOPS que el mejor de los detectores existentes. EfficientDet también es 3.2 veces más rápido en la GPU y 8.1 veces más rápido en la CPU.

Fuente: Mingxing Tan Ruoming Pang Quoc V. Le
Google Research, Brain Team "EfficientDet: detección de objetos escalable y eficiente"
arxiv.org/abs/1911.09070

All Articles