Nova arquitetura de rede neural - EfficientDet

Olá Habr! Apresento a você a análise do artigo "EfficientDet: Detecção de Objetos Escalável e Eficiente", de Mingxing Tan, Ruoming Pang, Quoc V. Le.

Nos últimos anos, houve um tremendo progresso em direção à detecção mais precisa de objetos, enquanto os modernos detectores de objetos também estão se tornando mais caros. O custo dos processos computacionais e a computação dispendiosa dificultam sua implantação em muitos aplicativos do mundo real, como robótica e carros de piloto automático, onde o tamanho e o atraso do modelo são severamente limitados. Dados esses recursos limitados do mundo real, a eficiência do modelo está se tornando cada vez mais importante para a detecção de objetos.
Já houve muitos trabalhos anteriores com o objetivo de desenvolver arquiteturas de detectores mais eficientes. Muitas vezes, esses trabalhos tendem a ser mais eficientes, sacrificando a precisão. Uma questão natural surge: é possível construir uma arquitetura de detecção escalável com maior precisão e maior eficiência, com uma ampla gama de limitações de recursos? Os criadores do EfficientDet acreditam que encontraram a resposta para esta pergunta.

EfficientDet: Detecção de Objetos Escalável e Eficiente


imagem

A tabela acima mostra que o EfficientDet
alcança uma precisão muito maior com menos cálculos
que outros detectores.

O que é a arquitetura EfficientDet?


imagem
A arquitetura geral do EfficientDet é amplamente consistente com o paradigma dos detectores de um estágio (um estágio). Baseado no EfficientNet, pré-treinado no ImageNet, uma camada com uma
pirâmide de recurso bidirecional ponderada (BiFPN) é anexada a ele , seguida por uma rede de classes e blocos para gerar previsões de classe de objeto e uma caixa delimitadora, respectivamente.

Um pouco sobre o BiFPN:


A idéia de criar uma pirâmide de recursos bidirecional surgiu após estudar o desempenho e a eficiência da rede para melhorar o dimensionamento: FPN, PANet e NAS-FPN. O PANet alcança melhor precisão do que o FPN e o NAS-FPN, mas à custa de mais parâmetros e cálculos. Para melhorar a eficiência do modelo, várias otimizações para conexões em escala cruzada foram propostas:
  • -, , . : , , . PANet, 2 ();
  • -, , , , 2 ();
  • -, PANet, , ( ) , .

imagem
Projeto de rede de
recursos - (a) O FPN apresenta um caminho descendente para fundir recursos de múltiplas escalas do nível 3 ao 7 (P3 - P7);
(b) PANet adiciona um caminho ascendente adicional na parte superior do FPN;
O NAS-FPN usa a arquitetura de
pesquisa neural para procurar uma topologia de rede irregular de objetos;
(d) adicionar conexões caras de todos os recursos de entrada aos recursos de saída;
(e) simplifica o painel removendo alguns nós;
(f) nosso BiFPN com melhores compromissos de precisão e eficiência.

imagem
A tabela mostra como, começando com RetinaNet (ResNet50 + FPN), o codificador foi substituído por EfficientNet-B3 e, em seguida, o FPN de base foi substituído por BiFPN, a precisão aumentou a cada alteração.

imagem
O EfficientDet também usa um recurso complicado em vez do SoftMax, que é baseado no método de normalização de mesclagem rápida, que fornece a mesma precisão que uma mesclagem baseada em Softmax, mas executa 1,26 a 1,31 vezes mais rápido nas GPUs.

imagem
O desempenho na classificação de imagens também foi aprimorado ao aumentar em conjunto todos os tamanhos de rede, profundidade e resolução de entrada.
O gráfico mostra uma comparação de diferentes métodos de dimensionamento. Todos os métodos aprimoram a precisão, mas um método abrangente de dimensionamento fornece melhor precisão e eficiência.

imagem
Na figura, você pode ver uma comparação do tamanho do modelo e do
atraso de saída: o atraso é medido com o tamanho do lote 1 na mesma máquina,
equipado com um GPU Titan V e um processador Xeon. AN significa AmoebaNet + NAS-FPN, pré-treinado com Augmentation.

Conclusão:


Como resultado de um estudo sistemático de várias opções para projetar uma arquitetura de rede para detecção eficaz de objetos, propõe-se uma rede funcional bidirecional ponderada e um método de dimensionamento composto personalizado para aumentar a precisão e a eficiência. Com base nessas otimizações, foi desenvolvida uma nova família de detectores chamados EfficientDet, que alcançam consistentemente maior precisão e eficiência do que a técnica anterior, com uma ampla variedade de limites de recursos. Em particular, nosso EfficientDet-D7 alcança precisão de ponta com menos parâmetros e FLOPS do que o melhor dos detectores existentes. O EfficientDet também é 3,2 vezes mais rápido na GPU e 8,1 vezes mais rápido na CPU.

Fonte: Mingxing Tan Ruoming Pang Quoc V. Le
Pesquisa do Google, Equipe do cérebro "EfficientDet: detecção de objetos escalável e eficiente"
arxiv.org/abs/1911.09070

All Articles