Dalam posting sebelumnya, saya mulai memahami model Deteksi Objek dua tahap dan berbicara tentang yang paling mendasar dan, karenanya, yang pertama dari mereka - R-CNN . Hari ini kita melihat model-model lain dari keluarga ini: Fast R-CNN dan Faster R-CNN . Pergilah!

Cepat r-cnn

Karena R-CNN adalah jaringan yang lambat dan tidak terlalu efisien, dengan cepat penulis yang sama mengusulkan peningkatan dalam bentuk jaringan R-CNN yang Cepat .

Proses pemrosesan gambar telah berubah dan terlihat seperti ini:

Mengekstrak peta atribut gambar (tidak untuk setiap hipotesis secara terpisah, tetapi untuk seluruh gambar);
Pencarian hipotesis (mirip dengan R-CNN berdasarkan Pencarian Selektif);
– .. ( );
( , SVM-).

RoI layer

Dalam konsep R-CNN asli, setiap hipotesis yang diajukan diproses secara individual menggunakan CNN - pendekatan ini telah menjadi semacam hambatan. Untuk mengatasi masalah ini, lapisan Region of Interest (RoI) dikembangkan . Lapisan ini memungkinkan Anda untuk sekali proses seluruh gambar menggunakan jaringan saraf, menerima pada output peta fitur, yang kemudian digunakan untuk memproses setiap hipotesis.

Tugas utama layer RoI adalah membandingkan koordinat hipotesis (koordinat kotak pembatas) dengan koordinat yang sesuai dari peta fitur. Membuat "irisan" dari peta fitur, lapisan RoI memasukkannya ke dalam input dari lapisan yang terhubung penuh untuk penentuan kelas berikutnya dan koreksi ke koordinat (lihat bagian berikut).

Sebuah pertanyaan logis muncul - bagaimana menerapkan hipotesis dengan berbagai ukuran dan rasio aspek pada input dari lapisan yang terhubung sepenuhnya? Untuk ini, lapisan RoI diperlukan, yang mengubah gambar dengan dimensi

I_{h} \times I_{w}

$I_{h}×I_{w}$ dalam ukuran

O_{h} \times O_{w}

$O_{h}×O_{w}$ . Untuk melakukan ini, Anda perlu membagi gambar asli ke dalam kisi ukuran

O_{h} \times O_{w}

$O_{h}×O_{w}$ (ukuran sel kira-kira

\frac{I_{h}}{O_{h}} \times \frac{I_{w}}{O_{w}}

$\frac{I_{h}}{O_{h}}×\frac{I_{w}}{O_{w}}$ ) dan dari setiap sel pilih jumlah maksimum.

Misalkan ada peta fitur 5 × 5 dan hipotesis yang diinginkan pada peta ini memiliki koordinat (1,1,4,5) (dua koordinat pertama adalah sudut kiri atas, dua terakhir adalah kanan bawah). Lapisan yang terhubung sepenuhnya berikutnya mengharapkan dimensi 4 × 1 (mis., Matriks 2 × 2 memanjang). Kemudian kita membagi hipotesis menjadi blok yang tidak sama dari dimensi yang berbeda (tahap Pooling) dan mengambil jumlah maksimum di masing-masing dimensi (tahap Pooling dan, sebagai hasilnya, tahap Output).

Dengan demikian, menjadi mungkin untuk memproses seluruh gambar, dan kemudian bekerja dengan setiap hipotesis berdasarkan peta fitur.

Total:

Input: koordinat hipotesis dan peta fitur gambar asli;
Output: representasi vektor dari hipotesis.

Sepenuhnya terhubung lapisan dan hasilnya

Dalam versi R-CNN sebelumnya, pengklasifikasi SVM terpisah digunakan, dalam implementasi yang sama mereka diganti dengan satu keluaran dimensi SoftMax

N_{c} + 1

$N_{c}+1$ . Perlu dicatat bahwa kehilangan akurasi kurang dari 1%.

Output dari regressor diproses menggunakan NMS (Non-Maximum Suppression).

Total:

Input: representasi vektor dari hipotesis;
Output: probabilitas hipotesis yang dimiliki kelas dan koreksi pada koordinat kotak pembatas.

Kehilangan banyak tugas

Dalam pelatihan simultan jaringan, fungsi kerugian khusus digunakan untuk tugas-tugas kemunduran kotak pembatas dan klasifikasi:

L (P, u, t^{u}, v) = L_{c l s} (P, u) + λ [u \geq 1] L_{l o c} (t^{u}, v)

$L(P,u,t^{u},v)=L_{cls}(P,u)+\lambda[u≥1]L_{loc}(t^{u},v)$

Sini:

$\lambda$ diperlukan untuk mengatur keseimbangan antara dua fungsi (penulis digunakan $\lambda$ = 1);
$u$ - kelas yang benar;
$L_{cls}$ mewakili fungsi kesalahan untuk klasifikasi $L_{cls}(P,u)=-logP_{u}$ ;
$L_{loc}$ adalah fungsi SmoothL1 dan mengukur perbedaan di antaranya $v=(v_{x},v_{y},v_{w},v_{h})$ dan $t^{u}=(t^u_x,t^u_y,t^u_w,t^u_h)$ nilai:

$S m o o t h L 1 = {\begin{matrix} \frac{1}{2} x^{2}, & i f | x | < 1 \\ | x | - \frac{1}{2}, & o t h e r w i s e \end{matrix}$
$SmoothL1=\left \{ \begin{matrix} \frac{1}{2}x^{2}, & if\left | x \right | <1\\ \left | x \right |-\frac{1}{2}, & otherwise \end{matrix}\right.$

Sini, $x$ menunjukkan perbedaan antara nilai target dan prediksi $t^u_i-v_{i}$ . Fungsi semacam itu menggabungkan keunggulan fungsi L1 dan L2, karena stabil pada nilai yang besar $x$ dan tidak banyak denda untuk nilai-nilai kecil.

Latihan

Untuk konvergensi yang lebih baik, penulis menggunakan pendekatan berikut untuk pembentukan batch:

Jumlah hipotesis dalam kumpulan dipilih $R$ .
Dipilih secara acak $N$ gambar-gambar.
Untuk masing-masing $N$ gambar yang diambil $\frac{R}{N}$ hipotesis (mis. merata di setiap gambar).

Pada saat yang sama, hipotesis positif (25% dari keseluruhan) dan negatif (75% dari seluruh) dimasukkan dalam R. Hipotesis yang tumpang tindih dengan lokasi objek yang benar lebih dari 0,5 (IoU) dianggap positif. Negatif diambil sesuai dengan aturan Penambangan Keras Negatif - contoh yang paling keliru (yang memiliki IoU dalam kisaran [0,1,0,5).

Apalagi penulis berpendapat bahwa dengan parameternya

N = 2

$N=2$ dan

R = 128

$R=128$ jaringan belajar beberapa kali lebih cepat daripada dengan

N = 128

$N=128$ dan

R = 128

$R=128$ (mis. satu hipotesis dari setiap gambar).

Lebih cepat r-cnn

Peningkatan logis lebih lanjut adalah cara untuk menghilangkan ketergantungan pada algoritma Pencarian Selektif. Untuk melakukan ini, kami akan mewakili seluruh sistem sebagai komposisi dua modul - definisi hipotesis dan pemrosesan mereka. Modul pertama akan diimplementasikan menggunakan Jaringan Proposal Wilayah (RPN) , dan yang kedua mirip dengan Fast R-CNN (dimulai dengan lapisan RoI).

Karenanya, saat ini proses bekerja dengan gambar telah berubah dan sekarang terjadi seperti ini:

Menghapus peta fitur gambar menggunakan jaringan saraf;
Generasi berdasarkan pada peta tanda-tanda hipotesis yang diperoleh - penentuan perkiraan koordinat dan keberadaan objek dari kelas apa pun;
Perbandingan koordinat hipotesis menggunakan RoI dengan fitur peta yang diperoleh pada langkah pertama;
Klasifikasi hipotesis (sudah untuk definisi kelas tertentu) dan penyempurnaan tambahan koordinat (pada kenyataannya, itu mungkin tidak berlaku).

Perbaikan utama terjadi tepat di tempat di mana hipotesis dihasilkan - sekarang untuk ini ada jaringan saraf kecil yang terpisah, yang disebut Jaringan Proposal Wilayah .

Jaringan Proposal Wilayah

Tujuan akhir dari modul ini adalah untuk sepenuhnya menggantikan algoritma Pencarian Selektif. Untuk operasi yang lebih cepat, bobot umum diperlukan dengan jaringan yang mengekstraksi atribut yang diperlukan. Oleh karena itu, input RPN adalah peta fitur yang diperoleh setelah jaringan ini. Penulis artikel asli menggunakan jaringan VGG16 untuk mengekstraksi fitur, yang hasilnya dianggap sebagai lapisan konvolusional terakhir - conv5_3. Jaringan seperti itu memiliki karakteristik bidang reseptif sebagai berikut :

Kompresi efektif (langkah efektif, $S_{0}$ ): enam belas
Ukuran bidang reseptif $r_{0}$ ): 196

Ini berarti bahwa peta fitur akan 16 kali lebih kecil dari ukuran gambar asli (jumlah saluran adalah 512), dan setiap nilai dalam sel-selnya dipengaruhi oleh piksel gambar asli yang terletak di persegi panjang 196 × 196. Jadi, ternyata jika Anda menggunakan input standar VGG16 224 × 224, maka hampir seluruh gambar akan memengaruhi pembentukan nilai sel pusat dari peta fitur (14.14)! Berdasarkan peta fitur yang diterima, RPN untuk setiap sel menghasilkan

k

$k$ hipotesis (dalam implementasi asli

k = 9

$k=9$ ) berbagai ukuran dan rasio aspek. Jadi, untuk ukuran standar, ini adalah 14 × 14 × 9 = 1764 hipotesis!

Berdasarkan gambar di bawah ini, kami mempertimbangkan algoritma modul RPN secara lebih rinci (gambar yang dapat diklik):

$c×\frac{H}{16}×\frac{W}{16}$ .
3×3 ( – ). , ( $P_{0}=106$ , $r_{0}=228$ ).

( $i,j$ ) $c$ ( 512).

1×1 ( ):
1. (cls) $\hat{c}=2k$ – - ( 2 ).
2. (reg) $\hat{c}=4k$ – .
Perhatikan bahwa vektor yang diperoleh dapat diubah menjadi matriks dan . Jadi, kami mendapatkan matriks, di mana garis sesuai dengan nilai-nilai untuk hipotesis tertentu.

Sebuah pertanyaan logis muncul: bagaimana koordinat absolut dari hipotesis dapat ditentukan dari vektor yang memasuki lapisan reg? Jawabannya sederhana - tidak mungkin. Untuk penentuan koordinat yang benar, perlu menggunakan apa yang disebut jangkar dan koreksi pada koordinatnya.

Jangkar adalah segi empat dengan rasio aspek yang berbeda (1: 1, 2: 1, 1: 2) dan ukuran (128 × 128, 256 × 256, 512 × 512). Pusat jangkar adalah pusat sel (

i, j

$i,j$ ) tanda-tanda kartu. Jadi, misalnya, mari kita ambil sel (7,7), yang pusatnya adalah nilai-nilai (7,5,7,5), yang sesuai dengan koordinat (120,120) dari gambar asli (16 × 7,5). Bandingkan dengan koordinat ini, segi empat dari tiga aspek rasio dan tiga ukuran (total 3 × 3 = 9). Di masa depan, lapisan reg akan menghasilkan pengeditan yang sesuai dengan koordinat ini, sehingga menyesuaikan lokasi dan bentuk kotak pembatas.

Total:

Input: peta fitur gambar asli;
Output: hipotesis yang mengandung objek.

Fungsi kerugian

Untuk pelatihan RPN, notasi kelas berikut digunakan:

Positif adalah semua jangkar memiliki persimpangan (IoU) lebih dari 0,7 atau memiliki persimpangan terbesar di antara semua jangkar (berlaku jika tidak ada persimpangan lebih dari 0,7).
Negatif adalah semua jangkar memiliki persimpangan kurang dari 0,3.
Semua jangkar lainnya tidak berpartisipasi dalam pelatihan (pada kenyataannya, mereka netral).

Jadi kelasnya

p_{i}^{*}

$p^*_i$ jangkar diberikan sesuai dengan aturan berikut:

p_{i}^{*} = {\begin{cases} 1 & i f I o U > 0.7 \\ 0 & i f I o U < 0.3 \\ n o t h i n g & o t h e r w i s e \end{cases}

$p^*_i = \begin{cases} 1 & if IoU > 0.7 \\ 0 & if IoU < 0.3 \\ nothing & otherwise \end{cases}$

Dengan notasi tersebut, fungsi berikut ini diminimalkan:

L ({p_{i}}, {t_{i}}) = \frac{1}{N_{c l s}} \sum_{i} L_{c l s} (p_{i}, p_{i}^{*}) + λ \frac{1}{N_{l o c}} \sum_{i} p_{i}^{*} L_{r e g} (t_{i}, t_{i}^{*})

$L(\{p_i\}, \{t_i\}) = \frac{1}{N_{cls}} \sum_i L_{cls}(p_i, p^*_i) + \lambda \frac{1}{N_{loc}} \sum_i p^*_i L_{reg} (t_i, t^*_i)$

Sini:

$i$ - nomor jangkar;
$p_{i}$ - probabilitas menemukan objek di $i$ jangkar;
$p^*_i$ - nomor kelas yang benar (ditunjukkan di atas);
$t_{i}$ - 4 prediksi koreksi terhadap koordinat;
$t^*_i$ - koreksi yang diharapkan (kebenaran dasar) untuk koordinat;
$L_{cls}(p_{i},p^*_i)$ - hilangnya log biner;
$L_{reg}(t_{i},t^*_i)$ - Kehilangan SmoothL1. Hanya diaktifkan jika $p^*_i=1$ , yaitu jika hipotesis mengandung setidaknya beberapa objek;
$\begin{Bmatrix}p_{i}\end{Bmatrix}$ dan $\begin{Bmatrix}t_{i}\end{Bmatrix}$ - output dari model klasifikasi dan regresi, masing-masing;
$\lambda$ - Koefisien untuk menyesuaikan keseimbangan antara klasifikasi dan regresi.

Kedua bagian dari kerugian gabungan menjadi normal

N_{c l s}

$N_{cls}$ dan

N_{l o c}

$N_{loc}$ masing-masing. Penulis yang digunakan

N_{c l s}

$N_{cls}$ sama dengan ukuran mini-batch (256), dan

N_{l o c}

$N_{loc}$ sama dengan jumlah jangkar.

Untuk mundur koreksi ke kotak pembatas, nilai diinisialisasi dan dihitung sebagai berikut:

t_{x} = \frac{(x - x_{a})}{w_{a}}, t_{x}^{*} = \frac{(x^{*} - x_{a})}{w *} t_{y} = \frac{(y - y_{a})}{h_{a}}, t_{y}^{*} = \frac{(y^{*} - y_{a})}{h_{a}} t_{w} = \log \frac{w}{w_{a}}, t_{w}^{*} = \log \frac{w^{*}}{w_{a}} t_{h} = \log \frac{h}{h_{a}}, t_{h}^{*} = \log \frac{h^{*}}{h_{a}}

$t_x = \frac{(x - x_a)}{w_a}, \quad\quad t^*_x = \frac{(x^*-x_a)}{w*} \\ t_y = \frac{(y - y_a)}{h_a}, \quad\quad t^*_y = \frac{(y^* - y_a)}{h_a} \\ t_w = \log{\frac{w}{w_a}}, \quad\quad t^*_w = \log{\frac{w^*}{w_a}} \\ t_h = \log{\frac{h}{h_a}}, \quad\quad t^*_h = \log{\frac{h^*}{h_a}}$

Sini

x

$x$ ,

y

$y$ ,

w

$w$ dan

h

$h$ menunjukkan pusat, lebar, dan tinggi kotak pembatas. Variabel

x

$x$ ,

x^{*}

$x^{*}$ dan

x_{a}

$x_{a}$ menunjukkan prediksi, kebenaran dasar dan arti jangkar (untuk

y

$y$ ,

w

$w$ dan

h

$h$ demikian pula).

Pelatihan tentang daftar lengkap jangkar akan memiliki bias terhadap kelas negatif (ada banyak lagi hipotesis dengan kelas ini). Dalam hal ini, mini-batch dibentuk dalam rasio 1: 1 dari anchor positif ke negatif. Jika tidak mungkin untuk menemukan jumlah jangkar positif yang sesuai, mini-batch dilengkapi dengan bantuan kelas negatif.

Pelatihan jaringan umum

Tujuan utama adalah penggunaan bersama skala antara dua modul - ini akan meningkatkan kecepatan kerja. Karena tidak mungkin (atau agak sulit) untuk melatih dua modul independen sekaligus, penulis artikel menggunakan pendekatan berulang:

Pelatihan jaringan RPN. Lapisan konvolusional diinisialisasi dengan bobot yang sebelumnya diperoleh selama pelatihan di ImageNet. Kami akan melatih kembali tugas mendefinisikan daerah dengan kelas apa pun (spesifikasi kelas adalah bagian dari Fast R-CNN).
Pelatihan Fast R-CNN Network. Seperti pada langkah 1, kami menginisialisasi Fast R-CNN dengan bobot yang sebelumnya diperoleh selama pelatihan di ImageNet. Kami melatih ulang menggunakan hipotesis tentang objek menggunakan jaringan RPN yang dilatih pada item 1. Kali ini, tugas pelatihan adalah untuk mengklarifikasi koordinat dan menentukan kelas objek tertentu.
Dengan menggunakan bobot dari hal. 2, kami hanya melatih bagian RPN (lapisan yang menuju ke jaringan RPN yang dimiliki oleh fitur extractor dibekukan dan tidak berubah sama sekali).
Menggunakan bobot dari hal. 3 (yaitu, RPN yang sudah disetel dengan halus), kami melatih layer untuk Fast R-CNN (bobot yang tersisa - yang berjalan lebih awal atau terkait dengan RPN - dibekukan).

Dengan bantuan pelatihan berulang seperti itu, ternyata seluruh jaringan dibangun pada skala yang sama. Anda dapat terus melatih jaringan pada prinsip ini, tetapi penulis mencatat bahwa tidak ada perubahan besar dalam metrik.

Proses prediksi

Saat menggunakan jaringan saraf untuk prediksi, propagasi gambar terlihat seperti ini:

Gambar memasuki input jaringan saraf, menghasilkan peta fitur.
Setiap sel dari peta fitur diproses menggunakan RPN, memberikan hasil dari koreksi ke posisi jangkar dan probabilitas kehadiran objek dari kelas apa pun.
Frame yang diprediksi terkait selanjutnya didasarkan pada peta fitur dan lapisan RoI untuk pemrosesan lebih lanjut dari bagian Fast R-CNN.
Pada output, kita mendapatkan kelas objek tertentu dan posisi yang tepat dalam gambar.

Perbedaan ringkasan

Berikut adalah ringkasan singkat dari model di antara mereka sendiri (ide-ide dasar diwarisi dari yang lebih muda ke yang lebih tua):

R-CNN:

Menggunakan Pencarian Selektif sebagai penghasil hipotesis.
Menggunakan SVM + Ridge untuk klasifikasi dan regresi hipotesis (apalagi, operasi paralelnya tidak memungkinkan).
Menjalankan jaringan saraf untuk memproses setiap hipotesis secara individual.
Kecepatan rendah.

Cepat R-CNN:

Jaringan saraf diluncurkan hanya sekali per gambar - semua hipotesis diuji berdasarkan peta fitur tunggal.
Pemrosesan cerdas berbagai ukuran hipotesis karena lapisan RoI.
Mengganti SVN dengan lapisan SoftMax.
Kemungkinan klasifikasi dan regresi kerja paralel.

Lebih cepat R-CNN:

Pembuatan hipotesis menggunakan modul khusus yang dapat dibedakan secara terpisah.
Perubahan dalam pemrosesan gambar yang terkait dengan munculnya modul RPN.
Yang tercepat dari ketiga model ini.
Ini adalah salah satu yang paling akurat hingga hari ini.

Kesimpulan

Sebagai kesimpulan, kita dapat mengatakan bahwa pengembangan R-CNN bergerak dari algoritma yang berbeda yang menyelesaikan satu masalah ke solusi end-to-end tunggal. Kombinasi ini memungkinkan Anda untuk membuat hampir semua pendekatan lebih akurat dan paling produktif, Deteksi Objek tidak terkecuali.

Bibliografi

R. Girshick, J. Donahue, T. Darrell, and J. Malik. «Rich feature hierarchies for accurate object detection and semantic segmentation.» In CVPR, 2014. arXiv:1311.2524
R. Girshick, J. Donahue, T. Darrell, and J. Malik. «Region-based convolutional networks for accurate object detection and segmentation.» TPAMI, 2015
R. Girshick, «Fast R-CNN,» in IEEE International Conference on Computer Vision (ICCV), 2015.
S. Ren, K. He, R. Girshick, and J. Sun, «Faster R-CNN: Towards real-time object detection with region proposal networks,» in Neural Information Processing Systems (NIPS), 2015.

Deteksi Objek Kenali dan aturankan. Bagian 2