42. Lebih lanjut tentang ketidakcocokan data

Misalkan Anda telah mengembangkan sistem pengenalan ucapan yang bekerja sangat baik pada sampel pelatihan dan pada "sampel untuk validasi pelatihan". Namun, ini memiliki kualitas buruk dalam sampel validasi: jelas, Anda berurusan dengan masalah inkonsistensi data. Apa yang bisa dilakukan dalam kasus ini?

Saya akan merekomendasikan yang berikut ini: (i) Cobalah memahami perbedaan distribusi data pelatihan dan sampel validasi. (ii) Temukan sebanyak mungkin contoh pelatihan yang sesuai dengan contoh sampel validasi dan algoritma yang salah.

Misalnya, misalnya, jika Anda menganalisis kesalahan secara manual untuk perangkat pengenalan ucapan, Anda menganalisis 100 contoh, mencoba memahami di antaranya tentang algoritma yang membuat kesalahan. Dan sebagai hasilnya, Anda menemukan bahwa sistem tidak bekerja dengan baik, karena sebagian besar klip suara dari sampel validasi direkam dalam mesin, sementara hampir semua contoh sampel pelatihan tidak memiliki suara asing. Suara mesin dan kebisingan jalan secara signifikan menurunkan kualitas pengenalan suara. Dalam hal ini, Anda dapat mencoba menambahkan lebih banyak contoh pelatihan yang direkam di dalam mobil. Tujuan dari analisis kesalahan dari algoritma adalah untuk mencari apa perbedaan antara pelatihan dan sampel uji, yang mengarah ke inkonsistensi data dalam sampel ini.

« » , , . , , « », , , , . , , . , .

, . , , , , , .

43.

, , . , , .

, / . . , , . «» / , , , , . , «» , , .

, , , .

. , - , , . , .

, : , , . , , 1000 1 . 1 , 1000 , , . , , , — . . , , , .

, 1000 , 10 . «» 10 , , , . , , , .

gambar

. , . , . , . , ( ), , .

~ 20 . 3D- ; , , , , . .. . — , , , — 20 . , 100 000 , 20 , , «» 20 , , .

, , . , , , , 20 , 1 . .

Saat mengerjakan sintesis data, tim saya terkadang menghabiskan waktu berminggu-minggu sebelum kami dapat mereproduksi detail yang memungkinkan kami untuk cukup dekat dengan distribusi contoh yang sebenarnya sehingga data yang disintesis dapat memiliki efek yang signifikan. Tetapi jika Anda dapat mereproduksi dengan benar dalam objek detail yang dekat dengan objek yang algoritmanya menunjukkan kualitas tinggi, Anda memiliki kesempatan untuk mendapatkan akses ke volume sampel pelatihan yang jauh lebih besar daripada yang Anda miliki sebelumnya.

kelanjutan

Terjemahan buku Andrew Un, Passion for Machine Learning, Bab 42 dan 43

42. Lebih lanjut tentang ketidakcocokan data

43.

More articles: