FarSee-Net review artikel - pendekatan baru untuk segmentasi semantik real-time

Dalam makalah ini, penulis mengusulkan arsitektur Cascaded Factorized Atrous Spatial Pyramid Pooling (CF-ASPP) untuk segmentasi semantik real-time. Modul CF-ASPP baru dan penggunaan resolusi-super meningkatkan trade-off latensi-akurasi. Tinjauan ini disiapkan oleh pengembang terkemuka MTS Andrey Lukyanenko.

gambar

Segmentasi semantik waktu-nyata sangat penting untuk banyak tugas yang dilakukan dengan sumber daya terbatas. Salah satu kesulitan besar adalah bekerja dengan objek dengan ukuran berbeda dan menggunakan konteks. Dalam tulisan ini, penulis mengusulkan arsitektur Cascaded Factorized Atrous Spatial Pyramid Pooling (CF-ASPP).

Saat ini, pendekatan umum adalah dengan cepat mengurangi ukuran gambar pada tahap awal, dan kemudian topeng ukuran asli diperoleh dengan menggunakan upsampling. Para penulis mengusulkan menggunakan pendekatan super-resolusi bukannya upampling sederhana.

Modul baru dan penggunaan resolusi-super dapat meningkatkan trade-off latensi-akurasi.

Dalam terminologi penulis, jaringan terlatih untuk ekstraksi fitur disebut jaringan front-end, dan sisanya disebut jaringan back-end.

gambar

Pembenaran untuk perbaikan

Karena objek yang sama dalam gambar yang berbeda mungkin memiliki ukuran yang berbeda, sangat penting untuk dapat menggunakan informasi kontekstual secara efektif, terutama untuk objek kecil dan sempit. Front-end biasanya melakukan agregasi konteks dari berbagai skala. Tetapi biasanya modul-modul ini bekerja pada tingkat jaringan saraf yang dalam, di mana jumlah salurannya tinggi. Akibatnya, bahkan lapisan konvolusional dengan ukuran kernel 3 memerlukan sumber daya komputasi yang cukup banyak. Oleh karena itu, penulis mengusulkan modul mereka sendiri, yang membuatnya lebih efektif.

Masalah back-end lain untuk segmentasi semantik adalah bahwa peta fitur memiliki dimensi spasial yang jauh lebih kecil setelah front-end. Plus, banyak pendekatan menggunakan gambar dengan ukuran yang diperkecil untuk meningkatkan kecepatan. Hasilnya, ukurannya bahkan lebih kecil. Para penulis menyarankan menggunakan masker ukuran asli untuk pengawasan selama pelatihan. Resolusi-super memungkinkan Anda untuk secara efisien mengembalikan topeng resolusi tinggi dari topeng resolusi rendah.

Inti dari perbaikan

Setiap mesh terlatih, seperti VGG, ResNet, MobileNet, dapat digunakan sebagai ujung depan.

Intinya adalah back-end:

gambar

Cascaded Factorized ASPP

Konvolusi atrus sering digunakan dalam segmentasi semantik - perbedaannya dari pendekatan standar adalah bahwa r-1 nol ditambahkan di antara filter. Ini memungkinkan Anda untuk meningkatkan visibilitas setiap filter secara signifikan tanpa meningkatkan biaya komputasi. Tetapi karena konvolusi mengerikan berlaku untuk peta fitur besar, komputasi masih mahal.

Para penulis mengusulkan penguraian konvolusi atrium 3 × 3 menjadi 2 bagian: konvolusi titik-bijaksana untuk mengurangi jumlah saluran, dan kemudian konvolusi yang mendalam dan rumit untuk mengurangi overhead komputasi. Akibatnya, dibutuhkan sekitar 8,8 kali lebih sedikit perhitungan.

Selain itu, modul ASPP diterapkan dua kali dalam kaskade. Di satu sisi, model menerima lebih banyak konteks skala yang berbeda, di sisi lain, gambar yang lebih kecil datang ke ASPP kedua, sehingga grid tidak melambat sangat banyak, tetapi akurasi meningkat.

Fitur Ruang Resolusi-Super

Sebagai hasil dari operasi front-end, ukuran gambar sangat berkurang, dan kami perlu mendapatkan hasil resolusi tinggi berdasarkan gambar yang diperkecil ini. Penulis menggunakan pendekatan super-resolusi untuk ini.

Pada tahap pelatihan, thumbnail digunakan sebagai input, dan gambar asli digunakan sebagai ground truth.

Dalam modul back-end upampling dilakukan dengan menggunakan konvolusi sub-pixel, yang hanya digunakan dalam tugas-tugas super-resolusi.

gambar

Eksperimen

Sebagai dataset, cityscape digunakan. Kode tersebut ditulis dalam Pytorch 1.1, CuDNN v7.0. Gangguan itu dilakukan pada Nvidia Titan X (Maxwell). Digunakan ResNet-18 sebagai mesh terlatih. Fitur diambil dari lapisan terakhir sebelum pengumpulan rata-rata dan dari lapisan conv3_x.
SGD, 400 era, dan banyak penambahan.

Studi Ablasi tentang Struktur Jaringan

gambar

Menguji 4 pendekatan:

  1. Front-end - ResNet-18, back-end - ASPP, decoder - DeeplabV3 +
  2. Front-end - ResNet-18, back-end - satu F-ASPP, decoder - DeeplabV3 +
  3. Front-end - ResNet-18, back-end - CF-ASPP (tanpa resolusi ruang fitur)
  4. Pendekatan penuh.

Dibandingkan dengan pendekatan lain,

gambar

kualitasnya sangat tinggi dan tingkat kesimpulannya hampir yang terbaik.

gambar

All Articles