Pelatihan dan pengujian sampel dengan distribusi yang berbeda

36. Ketika Anda harus melatih dan menguji algoritma pada distribusi yang berbeda

Pengguna aplikasi kucing Anda mengunggah 10.000 gambar, yang ditandai oleh Anda sebagai gambar dengan kucing dan gambar tanpa kucing. Anda juga memiliki banyak pilihan 200.000 gambar yang dikumpulkan secara online. Lalu bagaimana memilih pelatihan, validasi dan sampel uji?

Karena 10.000 gambar yang diunggah oleh pengguna secara akurat mencerminkan distribusi data probabilistik aktual yang menjadi dasar algoritme Anda, Anda dapat menggunakan gambar ini untuk validasi dan sampel uji. Jika Anda mempelajari algoritma pembelajaran mendalam yang membutuhkan banyak data, Anda dapat menggunakan 200.000 contoh tambahan dari Internet untuk melatihnya. Dalam hal ini, pelatihan dan tes Anda dengan sampel validasi akan memiliki distribusi probabilitas yang berbeda. Bagaimana ini akan memengaruhi pekerjaan Anda?

Alih-alih mengutak-atik pemilihan data untuk pelatihan, validasi, dan sampel uji, kami dapat mengambil semua 210.000 gambar kami, mencampurnya, dan memilih data secara acak untuk setiap sampel. Dalam hal ini, ketiga sampel akan berisi data dari distribusi yang sama.

Tetapi saya menentang pendekatan ini. Karena kenyataan bahwa sekitar 97,6% dari data (205.000 / 210.000 ≈ 97,6%) dari sampel validasi dan pengujian akan diambil dari data yang ditemukan di Internet (tidak diterima dari pengguna) dan mereka tidak akan mencerminkan distribusi nyata yang diperlukan untuk mencapai kualitas tinggi. Ingat rekomendasi kami untuk pemilihan validasi dan sampel uji:

Pilih validasi dan uji sampel yang mencerminkan data yang akan diterima algoritma Anda setelah meluncurkan aplikasi dan yang harus berfungsi dengan baik

, , .

: . « », « » « ». . A B, . ( «» , , .) .

. , . , . , , .

, . , , , .

, 10000 , 5000 . 5000 . , 205 000, 5000 , 200 000 , . .

. , , . 20 000 , . 500 000 , . 10 000 10 000 500 000 .

, , , , .

37. ,

, 10 000 . . 20 000 , . 20 000 + 10 000 = 30 000 20 000 , ?

( , ), , . , , 20000 , .

, , . / , 20000 . , , .

, , x -> y, . , - , , , , , .

20000 :

, . , , , . , .
, (, , , . .). , , «» . , , , , . , .

, . , , , « - , . , »

, , , . , , , . «» , , .

( ), , .

, , , . , , , , , . , :

gambar

Dokumen-dokumen ini tidak mengandung apa pun yang menyerupai kucing. Mereka juga sama sekali tidak seperti distribusi validasi dan sampel uji. Tidak ada gunanya memasukkan data ini sebagai contoh negatif. Manfaat dari efek pertama yang dijelaskan di atas akan diabaikan - jaringan saraf tidak mungkin dapat mengekstraksi apa pun dari data ini yang akan membantunya bekerja lebih baik pada validasi dan uji sampel aplikasi Anda. Dimasukkannya data ini akan menyebabkan hilangnya sumber daya komputasi dan mungkin mengurangi kemampuan jaringan saraf untuk memperkirakan fungsi (akhirnya mengurangi kemampuan pengakuannya).

kelanjutan

Terjemahan buku Andrew Un, Passion for Machine Learning, Bab 36 dan 37

Pelatihan dan pengujian sampel dengan distribusi yang berbeda

36. Ketika Anda harus melatih dan menguji algoritma pada distribusi yang berbeda

37. ,

More articles: