⚙️ 💛 🌴 Mengkonfigurasi fungsi kehilangan untuk jaringan saraf berdasarkan data seismik ✍️ 🤴🏽 🔍

Dalam artikel sebelumnya, kami menggambarkan percobaan untuk menentukan jumlah minimum bagian berlabel secara manual untuk melatih jaringan saraf menggunakan data seismik. Hari ini kami melanjutkan topik ini dengan memilih fungsi kerugian yang paling tepat.

Dua kelas dasar fungsi dipertimbangkan - Binary cross entropy dan Intersection over Union - dalam 6 varian dengan pemilihan parameter, serta kombinasi fungsi dari kelas yang berbeda. Selain itu, regularisasi fungsi kerugian juga dipertimbangkan.

Spoiler: berhasil meningkatkan kualitas perkiraan jaringan secara signifikan.

Tujuan Penelitian Bisnis

Kami tidak akan mengulangi deskripsi spesifik survei seismik, data yang diperoleh, dan tugas interpretasi mereka. Semua ini dijelaskan dalam artikel kami sebelumnya .

Ide penelitian ini didorong oleh hasil kompetisi untuk mencari deposit garam pada irisan 2D . Menurut para peserta kompetisi , dalam menyelesaikan masalah ini, kebun binatang seluruh berbagai fungsi kerugian digunakan, apalagi, dengan keberhasilan yang berbeda.

Oleh karena itu, kami bertanya pada diri sendiri: apakah benar-benar masalah seperti pada data tersebut untuk memilih fungsi kerugian dapat memberikan peningkatan kualitas yang signifikan? Atau apakah karakteristik ini hanya untuk kondisi kompetisi, ketika ada perjuangan untuk tempat desimal keempat atau kelima untuk metrik yang telah ditentukan oleh penyelenggara?

Biasanya, dalam tugas diselesaikan dengan bantuan jaringan saraf, penyetelan proses pembelajaran didasarkan terutama pada pengalaman peneliti dan beberapa heuristik. Misalnya, untuk masalah segmentasi gambar, fungsi kerugian paling sering digunakan, berdasarkan penilaian kebetulan dari bentuk zona yang dikenali, yang disebut Intersection over Union.

Secara intuitif, berdasarkan pada pemahaman tentang perilaku dan hasil penelitian, jenis-jenis fungsi ini akan memberikan hasil yang lebih baik daripada yang tidak diasah oleh gambar, seperti lintas-entropi. Namun demikian, percobaan untuk mencari opsi terbaik untuk jenis tugas ini secara keseluruhan dan masing-masing tugas berlanjut secara individual.

Data seismik yang disiapkan untuk interpretasi memiliki sejumlah fitur yang dapat memiliki dampak signifikan pada perilaku fungsi kerugian. Misalnya, cakrawala yang memisahkan lapisan geologi halus, lebih tajam hanya berubah di tempat-tempat patahan. Selain itu, zona yang dibedakan memiliki area yang cukup besar relatif terhadap gambar, mis. bintik-bintik kecil pada hasil interpretasi paling sering dianggap sebagai kesalahan pengenalan.

Sebagai bagian dari percobaan ini, kami mencoba menemukan jawaban untuk pertanyaan lokal berikut:

Apakah fungsi kerugian dari titik-temu atas kelas Union benar-benar hasil terbaik untuk masalah yang dipertimbangkan di bawah ini? Tampaknya jawabannya jelas, tetapi yang mana? Dan berapa yang terbaik dari sudut pandang bisnis?
Apakah mungkin untuk meningkatkan hasil dengan menggabungkan fungsi-fungsi kelas yang berbeda? Misalnya, Persimpangan atas Union dan cross-entropy dengan bobot yang berbeda.
Apakah mungkin untuk meningkatkan hasil dengan menambahkan fungsi kerugian berbagai penambahan yang dirancang khusus untuk data seismik?

Dan untuk pertanyaan yang lebih global:

Apakah perlu repot dengan pemilihan fungsi kehilangan untuk tugas menafsirkan data seismik, atau apakah peningkatan kualitas tidak sebanding dengan hilangnya waktu untuk melakukan studi tersebut? Mungkin layak secara intuitif memilih fungsi dan menghabiskan energi untuk pemilihan parameter pelatihan yang lebih signifikan?

Deskripsi umum percobaan dan data yang digunakan

Untuk percobaan, kami mengambil tugas yang sama untuk mengisolasi lapisan geologi pada irisan 2D kubus seismik (lihat Gambar 1).

Gambar 1. Contoh irisan 2D (kiri) dan hasil penandaan lapisan geologis yang sesuai (kanan) ( sumber )

Dan kumpulan data berlabel yang sama dari sektor Belanda di Laut Utara. Sumber data seismik tersedia di Open Seismic Repository: situs web Project Netherlands Offshore F3 Block . Deskripsi singkat dapat ditemukan di Silva et al. "Dataset Belanda: Dataset Publik Baru untuk Pembelajaran Mesin dalam Interpretasi Seismik . "

Karena dalam kasus kami, kami berbicara tentang irisan 2D, kami tidak menggunakan kubus 3D asli, tetapi “irisan” yang sudah dibuat, tersedia di sini:Dataset Interpretasi F3 Belanda .

Selama percobaan, kami memecahkan masalah berikut:

Kami melihat data sumber dan memilih irisan, yang kualitasnya paling dekat dengan penandaan manual (mirip dengan eksperimen sebelumnya).
Kami mencatat arsitektur jaringan saraf, metodologi dan parameter pelatihan, dan prinsip pemilihan irisan untuk pelatihan dan validasi (mirip dengan eksperimen sebelumnya).
Kami memilih fungsi kerugian yang dipelajari.
Kami memilih parameter terbaik untuk fungsi kerugian parameter.
Kami melatih jaringan saraf dengan fungsi berbeda pada volume data yang sama dan memilih fungsi terbaik.
Kami melatih jaringan saraf dengan kombinasi berbeda dari fungsi yang dipilih dengan fungsi kelas lain pada jumlah data yang sama.
Kami melatih jaringan saraf dengan regularisasi fungsi yang dipilih pada jumlah data yang sama.

Sebagai perbandingan, kami menggunakan hasil percobaan sebelumnya di mana fungsi kerugian dipilih secara eksklusif secara intuitif dan merupakan kombinasi fungsi dari kelas yang berbeda dengan koefisien yang juga dipilih "oleh mata".

Hasil percobaan ini dalam bentuk metrik yang diperkirakan dan diprediksi oleh jaringan topeng irisan disajikan di bawah ini.

Tugas 1. Pemilihan data

Sebagai data awal, kami menggunakan inline dan garis silang kubus seismik dari sektor Belanda di Laut Utara. Seperti dalam percobaan sebelumnya, mensimulasikan pekerjaan penerjemah, untuk melatih jaringan, kami hanya memilih masker bersih, setelah melihat semua irisan. Akibatnya, 700 garis silang dan 400 inline dari ~ 1600 gambar sumber dipilih.

Tugas 2. Memperbaiki parameter percobaan

Bagian ini dan berikut ini menarik, pertama-tama, untuk spesialis dalam Ilmu Data, oleh karena itu, terminologi yang sesuai akan digunakan.

Untuk pelatihan, kami memilih 5% dari total jumlah irisan, apalagi, sebaris dan garis silang dalam bagian yang sama, yaitu 40 + 40. Irisan dipilih secara merata di seluruh kubus. Untuk validasi, 1 slice digunakan antara gambar yang berdekatan dari sampel pelatihan. Dengan demikian, sampel validasi terdiri dari 39 inline dan 39 crossline.

321 inline dan 621 crossline jatuh ke dalam sampel tertunda, di mana hasilnya dibandingkan.

Mirip dengan percobaan sebelumnya, preprocessing gambar tidak dilakukan, dan arsitektur UNet yang sama dengan parameter pelatihan yang sama digunakan.

Topeng irisan sasaran direpresentasikan sebagai kubus biner dimensi HxWx10, di mana dimensi terakhir sesuai dengan jumlah kelas, dan setiap nilai kubus adalah 0 atau 1, tergantung pada apakah piksel dalam gambar ini milik kelas lapisan yang sesuai atau tidak.

Setiap perkiraan jaringan adalah kubus yang sama, setiap nilai yang terkait dengan probabilitas bahwa piksel gambar yang diberikan milik kelas lapisan yang sesuai. Dalam kebanyakan kasus, nilai ini diubah menjadi probabilitas itu sendiri dengan menggunakan sigmoid. Namun, ini tidak boleh dilakukan untuk semua fungsi kerugian, oleh karena itu aktivasi tidak digunakan untuk lapisan terakhir jaringan. Sebaliknya, konversi yang sesuai dilakukan di fungsi itu sendiri.

Untuk mengurangi pengaruh keacakan pilihan bobot awal pada hasil, jaringan dilatih selama 1 era dengan entropi silang biner sebagai fungsi kerugian. Semua pelatihan lain dimulai dengan bobot yang diterima.

Tugas 3. Pilihan fungsi kerugian

Untuk percobaan, 2 kelas fungsi dasar dipilih dalam 6 varian:

Binary cross entropy :

entropi silang biner;
entropi silang biner tertimbang;
entropi silang biner seimbang.

Persimpangan atas Union :

Kerugian Jaccard;
Kerugian besar;
Kehilangan Lovász.

Deskripsi singkat tentang fungsi-fungsi yang tercantum dengan kode untuk Keras diberikan dalam artikel . Di sini kami menyajikan yang paling penting dengan tautan (jika mungkin) ke deskripsi terperinci dari setiap fungsi.

Untuk percobaan kami, konsistensi fungsi yang digunakan selama pelatihan penting dengan metrik yang digunakan untuk mengevaluasi hasil perkiraan jaringan pada sampel yang tertunda. Oleh karena itu, kami menggunakan kode kami yang diimplementasikan pada TensorFlow dan Numpy, yang ditulis langsung menggunakan rumus di bawah ini.

Notasi berikut digunakan dalam rumus:

pt - untuk topeng target biner (Kebenaran Tanah);
pp - untuk topeng prediksi jaringan.

Untuk semua fungsi, kecuali ditentukan lain, diasumsikan bahwa topeng prediksi jaringan berisi probabilitas untuk setiap piksel dalam gambar, mis. nilai dalam interval (0, 1).

Entropi silang biner

Deskripsi: https://towardsdatascience.com/understanding-binary-cross-entropy-log-loss-a-visual-explanation-a3ac6025181a .

Fungsi ini berupaya untuk membawa distribusi perkiraan jaringan lebih dekat ke target, menghukum tidak hanya prediksi yang salah, tetapi juga prediksi yang tidak pasti.

Entropi silang biner tertimbang

Fungsi ini bertepatan dengan binary cross-entropy dengan nilai beta 1. Direkomendasikan untuk ketidakseimbangan kelas yang kuat. Untuk beta> 1, jumlah perkiraan negatif palsu (False Negative) menurun dan kelengkapan (Ingat) meningkat, untuk beta <1 jumlah perkiraan positif palsu (False Positive) berkurang dan akurasi meningkat (Presisi).

Entropi silang biner seimbang

Fungsi ini mirip dengan entropi silang tertimbang, tetapi mengoreksi kontribusi tidak hanya tunggal, tetapi juga nilai nol dari topeng target. Bertepatan (hingga konstanta) dengan entropi silang biner pada nilai koefisien beta = 0,5.

Kerugian Jaccard

Koefisien Jacquard (alias Intersection over Union, IoU) menentukan ukuran "kesamaan" dari dua area. Indeks Dice melakukan hal yang sama:

Tidak masuk akal untuk mempertimbangkan kedua fungsi ini. Kami memilih Jacquard.

Untuk kasus ketika kedua area ditentukan menggunakan topeng biner, rumus di atas dapat dengan mudah ditulis ulang dalam hal nilai-nilai topeng:

Untuk prakiraan non-biner, optimalisasi koefisien Jacquard adalah tugas yang tidak sepele. Kami akan menggunakan rumus yang sama untuk probabilitas dalam topeng perkiraan sebagai imitasi tertentu dari koefisien awal dan, karenanya, fungsi kerugian berikut:

Kerugian besar

Deskripsi: https://arxiv.org/pdf/1706.05721.pdf

Fungsi ini adalah versi parameter dari optimalisasi koefisien Jacquard yang bertepatan dengan itu pada alpha = beta = 1 dan dengan indeks Dadu di alpha = beta = 0,5. Untuk nilai-nilai non-nol dan non-coincident lainnya, kita dapat menggeser penekanan ke arah akurasi atau kelengkapan dengan cara yang sama seperti dalam fungsi entropi silang berbobot dan seimbang.

Masalah penekanan penekanan dapat ditulis ulang menggunakan koefisien tunggal yang terletak pada interval (0, 1). Fungsi kerugian yang dihasilkan akan terlihat seperti ini:

Kehilangan Lovász

Sulit untuk memberikan formula untuk fungsi ini, karena ini merupakan opsi untuk mengoptimalkan koefisien Jacquard dengan algoritma berdasarkan kesalahan yang diurutkan.

Anda dapat melihat deskripsi fungsi di sini , salah satu opsi kode ada di sini .

Penjelasan penting!

Untuk menyederhanakan perbandingan nilai dan grafik selanjutnya, di bawah istilah "koefisien Jacquard" kita akan lebih memahami unit dikurangi koefisien itu sendiri. Kehilangan Jaccard adalah salah satu cara untuk mengoptimalkan rasio ini, bersama dengan kerugian Tversky dan kerugian Lovász.

Tugas 4. Memilih parameter terbaik untuk fungsi kehilangan ter-parameterisasi

Untuk memilih fungsi kehilangan terbaik pada set data yang sama, diperlukan kriteria evaluasi. Dalam kualitasnya, kami memilih rata-rata / jumlah rata-rata komponen yang terhubung pada masker yang dihasilkan. Selain itu, kami menggunakan koefisien Jacquard untuk masker prediktif yang dikonversi menjadi argmax satu-lapisan dan sekali lagi dibagi menjadi lapisan-lapisan yang dilubangi.

Jumlah komponen yang terhubung (yaitu, bintik-bintik padat dengan warna yang sama) pada setiap perkiraan yang diperoleh adalah kriteria tidak langsung untuk menilai volume perbaikan selanjutnya oleh juru bahasa. Jika nilai ini 10, maka layer-layer tersebut dipilih dengan benar dan kita berbicara tentang maksimum koreksi horizon minor. Jika tidak banyak lagi, maka Anda hanya perlu "membersihkan" area kecil dari gambar. Jika ada lebih banyak dari mereka, maka semuanya buruk dan bahkan mungkin perlu tata letak yang lengkap.

Koefisien Jacquard, pada gilirannya, mencirikan kebetulan zona gambar ditugaskan untuk satu kelas dan batas-batasnya.