Arsitektur jaringan saraf baru - EfficientDet

Halo, Habr! Saya menyajikan kepada Anda analisis artikel "EfficientDet: Deteksi Objek yang Scalable dan Efisien" oleh Mingxing Tan, Ruoming Pang, Quoc V. Le.

Dalam beberapa tahun terakhir, kemajuan luar biasa telah dibuat menuju deteksi objek yang lebih akurat, sementara detektor objek modern juga menjadi lebih mahal. Biaya proses komputasi dan komputasi yang mahal menghambat penyebarannya di banyak aplikasi di dunia nyata, seperti robot dan mobil autopilot, di mana ukuran dan keterlambatan model sangat terbatas. Mengingat sumber daya dunia nyata yang terbatas ini, efisiensi model menjadi semakin penting untuk deteksi objek.
Ada banyak karya sebelumnya yang bertujuan mengembangkan arsitektur detektor yang lebih efisien. Seringkali pekerjaan seperti itu cenderung lebih efisien, dengan mengorbankan akurasi. Sebuah pertanyaan alami muncul: apakah mungkin untuk membangun arsitektur deteksi yang dapat diskalakan dengan akurasi yang lebih tinggi dan efisiensi yang lebih besar dengan berbagai keterbatasan sumber daya? Pembuat EfficientDet percaya bahwa mereka telah menemukan jawaban untuk pertanyaan ini.

EfficientDet: Deteksi Objek yang Skala dan Efisien


gambar

Tabel di atas menunjukkan bahwa EfficientDet
mencapai akurasi yang jauh lebih tinggi dengan perhitungan yang lebih sedikit
daripada detektor lainnya.

Apa arsitektur EfficientDet?


gambar
Arsitektur EfficientDet secara keseluruhan sebagian besar konsisten dengan paradigma detektor satu tahap (satu tahap). Berdasarkan EfficientNet, yang dilatih sebelumnya di ImageNet, sebuah lapisan dengan
piramida fitur dua arah berbobot (BiFPN) melekat padanya , diikuti oleh jaringan kelas dan blok untuk menghasilkan prediksi kelas objek dan kotak pembatas, masing-masing.

Sedikit tentang BiFPN:


Gagasan membuat piramida fitur dua arah muncul setelah mempelajari kinerja jaringan dan efisiensi untuk meningkatkan penskalaan: FPN, PANet, dan NAS-FPN. PANet mencapai akurasi yang lebih baik daripada FPN dan NAS-FPN, tetapi dengan biaya lebih banyak parameter dan perhitungan. Untuk meningkatkan efisiensi model, beberapa optimasi untuk koneksi lintas skala diusulkan:
  • -, , . : , , . PANet, 2 ();
  • -, , , , 2 ();
  • -, PANet, , ( ) , .

gambar
Desain Jaringan
Fitur - (a) FPN memperkenalkan jalur ke bawah untuk memadukan fitur multiskala dari level 3 ke 7 (P3 - P7);
(B) PANet menambahkan jalur bottom-up tambahan di atas FPN;
© NAS-FPN menggunakan arsitektur
pencarian saraf untuk mencari topologi jaringan yang tidak teratur dari objek;
(d) menambahkan koneksi mahal dari semua fitur input ke fitur output;
(e) menyederhanakan panel dengan menghapus beberapa node;
(f) BiFPN kami dengan kompromi akurasi dan efisiensi yang lebih baik.

gambar
Tabel menunjukkan bagaimana, dimulai dengan RetinaNet (ResNet50 + FPN), encoder diganti dengan EfficientNet-B3, dan kemudian basis FPN diganti dengan BiFPN, akurasi tumbuh dengan setiap perubahan.

gambar
EfficientDet juga menggunakan fitur rumit alih-alih SoftMax, yang didasarkan pada metode normalisasi penggabungan cepat, yang menyediakan akurasi yang sama dengan penggabungan berbasis Softmax, tetapi berjalan 1.26-1.31 kali lebih cepat pada GPU.

gambar
Kinerja dalam klasifikasi gambar juga telah ditingkatkan dengan secara bersama-sama meningkatkan semua ukuran jaringan, kedalaman dan resolusi input.
Grafik menunjukkan perbandingan berbagai metode penskalaan. Semua metode meningkatkan akurasi, tetapi metode penskalaan yang komprehensif memberikan akurasi dan efisiensi kompromi yang lebih baik.

gambar
Pada gambar Anda dapat melihat perbandingan ukuran model dan
keterlambatan keluaran: keterlambatan diukur dengan ukuran batch 1 pada mesin yang sama,
dilengkapi dengan GPU Titan V dan prosesor Xeon. AN adalah singkatan dari AmoebaNet + NAS-FPN, pra-dilatih dengan Augmentasi.

Kesimpulan:


Sebagai hasil dari studi sistematis berbagai pilihan untuk merancang arsitektur jaringan untuk deteksi objek yang efektif, jaringan fungsional dua arah tertimbang dan metode penskalaan komposit khusus diusulkan untuk meningkatkan akurasi dan efisiensi. Berdasarkan pengoptimalan ini, sekelompok detektor baru yang disebut EfficientDet telah dikembangkan yang secara konsisten mencapai akurasi dan efisiensi yang lebih besar daripada penemuan sebelumnya, dengan berbagai keterbatasan sumber daya. Secara khusus, EfficientDet-D7 kami mencapai akurasi canggih dengan lebih sedikit parameter dan FLOPS daripada yang terbaik dari detektor yang ada. EfficientDet juga 3,2 kali lebih cepat pada GPU dan 8,1 kali lebih cepat pada CPU.

Sumber: Mingxing Tan Ruoming Pang Quoc V. Le
Google Research, Brain Team "EfficientDet: Deteksi Objek yang Scalable dan Efisien"
arxiv.org/abs/1911.09070

All Articles