Neue neuronale Netzwerkarchitektur - EfficientDet

Hallo Habr! Ich präsentiere Ihnen die Analyse des Artikels "EfficientDet: Skalierbare und effiziente Objekterkennung" von Mingxing Tan, Ruoming Pang, Quoc V. Le.

In den letzten Jahren wurden enorme Fortschritte bei der genaueren Objekterkennung erzielt, während moderne Objektdetektoren ebenfalls teurer werden. Die Kosten für Rechenprozesse und kostspielige Berechnungen behindern deren Einsatz in vielen realen Anwendungen wie Robotik und Autopilotautos, in denen Modellgröße und Verzögerung stark begrenzt sind. Angesichts dieser begrenzten realen Ressourcen wird die Modelleffizienz für die Objekterkennung immer wichtiger.
Es gab viele frühere Arbeiten zur Entwicklung effizienterer Detektorarchitekturen. Oft sind solche Arbeiten effizienter und beeinträchtigen die Genauigkeit. Es stellt sich natürlich die Frage: Ist es möglich, eine skalierbare Erkennungsarchitektur mit höherer Genauigkeit und höherer Effizienz mit einer Vielzahl von Ressourcenbeschränkungen zu erstellen? Die Entwickler von EfficientDet glauben, die Antwort auf diese Frage gefunden zu haben.

EfficientDet: Skalierbare und effiziente Objekterkennung


Bild

Die obige Tabelle zeigt, dass EfficientDet
mit weniger Berechnungen eine viel höhere Genauigkeit erzielt
als andere Detektoren.

Was ist die EfficientDet-Architektur?


Bild
Die gesamte EfficientDet-Architektur stimmt weitgehend mit dem Paradigma einstufiger (einstufiger) Detektoren überein. Basierend auf EfficientNet, das in ImageNet vorab trainiert wurde, wird eine Ebene mit einer gewichteten bidirektionalen
Merkmalspyramide (BiFPN) angehängt , gefolgt von einem Klassen- und Blocknetzwerk zum Generieren von Objektklassenvorhersagen bzw. einem Begrenzungsrahmen.

Ein bisschen über BiFPN:


Die Idee, eine bidirektionale Feature-Pyramide zu erstellen, entstand nach einer Untersuchung der Netzwerkleistung und -effizienz zur Verbesserung der Skalierung: FPN, PANet und NAS-FPN. PANet erzielt eine bessere Genauigkeit als FPN und NAS-FPN, jedoch auf Kosten von mehr Parametern und Berechnungen. Um die Effizienz des Modells zu verbessern, wurden verschiedene Optimierungen für maßstabsübergreifende Verbindungen vorgeschlagen:
  • -, , . : , , . PANet, 2 ();
  • -, , , , 2 ();
  • -, PANet, , ( ) , .

Bild

Feature Network Design - (a) FPN führt einen Abwärtspfad ein, um Multiskalen-Features von Level 3 bis 7 (P3 - P7) zu verschmelzen.
(b) PANet fügt einen zusätzlichen Bottom-Up-Pfad über dem FPN hinzu.
© NAS-FPN verwendet eine neuronale
Sucharchitektur , um nach einer unregelmäßigen Netzwerktopologie von Objekten zu suchen.
(d) Hinzufügen teurer Verbindungen von allen Eingabemerkmalen zu Ausgabemerkmalen;
(e) vereinfacht das Panel durch Entfernen einiger Knoten;
(f) unser BiFPN mit besseren Kompromissen bei Genauigkeit und Effizienz.

Bild
Die Tabelle zeigt, wie ausgehend von RetinaNet (ResNet50 + FPN) der Encoder durch EfficientNet-B3 und dann das Basis-FPN durch BiFPN ersetzt wurde und die Genauigkeit mit jeder Änderung zunahm.

Bild
EfficientDet verwendet anstelle von SoftMax auch eine knifflige Funktion, die auf der Fast Merge Normalization-Methode basiert, die die gleiche Genauigkeit wie eine Softmax-basierte Zusammenführung bietet, auf GPUs jedoch 1,26-1,31-mal schneller ausgeführt wird.

Bild
Die Leistung bei der Bildklassifizierung wurde auch verbessert, indem alle Netzwerkgrößen, Tiefen und Eingabeauflösungen gemeinsam erhöht wurden.
Die Grafik zeigt einen Vergleich verschiedener Skalierungsmethoden. Alle Methoden verbessern die Genauigkeit, aber eine umfassende Skalierungsmethode bietet eine bessere Kompromissgenauigkeit und Effizienz.

Bild
In der Abbildung sehen Sie einen Vergleich der Modellgröße und der Ausgangsverzögerung: Die
Verzögerung wird mit der Größe von Charge 1 auf derselben Maschine gemessen.
Ausgestattet mit einer Titan V GPU und einem Xeon Prozessor. AN steht für AmoebaNet + NAS-FPN, das mit Augmentation vorab trainiert wurde.

Fazit:


Als Ergebnis einer systematischen Untersuchung verschiedener Optionen zum Entwerfen einer Netzwerkarchitektur für eine effektive Objekterkennung werden ein gewichtetes bidirektionales Funktionsnetzwerk und ein benutzerdefiniertes zusammengesetztes Skalierungsverfahren vorgeschlagen, um die Genauigkeit und Effizienz zu erhöhen. Basierend auf diesen Optimierungen wurde eine neue Detektorfamilie namens EfficientDet entwickelt, die durchweg eine höhere Genauigkeit und Effizienz als der Stand der Technik mit einer Vielzahl von Ressourcengrenzen erzielt. Insbesondere unser EfficientDet-D7 erreicht mit weniger Parametern und FLOPS eine Genauigkeit auf dem neuesten Stand der Technik als die besten vorhandenen Detektoren. EfficientDet ist auf der GPU 3,2-mal schneller und auf der CPU 8,1-mal schneller.

Quelle: Mingxing Tan Ruoming Pang Quoc V. Le
Google Research, Brain Team "EfficientDet: Skalierbare und effiziente Objekterkennung"
arxiv.org/abs/1911.09070

All Articles