Terjemahan buku Andrew Un, Passion for Machine Learning, Bab 40 dan 41

bab sebelumnya


40. Masalah generalisasi: dari sampel pelatihan hingga validasi


Misalkan Anda menerapkan ML dalam kondisi di mana distribusi sampel pelatihan dan validasi berbeda. Misalnya, sampel pelatihan berisi gambar dari Internet + gambar dari aplikasi seluler, dan sampel pengujian dan validasi hanya dari aplikasi seluler. Namun, algoritmanya tidak bekerja dengan baik: ia memiliki kesalahan yang jauh lebih tinggi dalam validasi dan sampel uji daripada yang kita inginkan. Berikut beberapa alasan yang mungkin:


  1. Algoritma berkinerja buruk pada sampel uji dan ini disebabkan oleh masalah bias yang tinggi (yang dapat dihindari) dalam distribusi sampel pelatihan
  2. Algoritme berkualitas tinggi pada set pelatihan, tetapi tidak dapat menggeneralisasikan pekerjaannya ke data yang memiliki distribusi serupa dengan set pelatihan, yang belum pernah dilihatnya sebelumnya. Ini adalah kasus pencar tinggi.
  3. Algoritma menggeneralisasikan kerjanya dengan baik untuk data baru dari distribusi yang sama dengan sampel pelatihan, tetapi tidak dapat mengatasi (menggeneralisasi) ke distribusi validasi dan sampel uji yang diperoleh dari distribusi lain. Ini menunjukkan ketidakkonsistenan data yang timbul karena perbedaan dalam distribusi sampel pelatihan dari distribusi validasi dan sampel uji

Sebagai contoh, anggaplah tingkat pengakuan manusia terhadap kucing hampir ideal. Algoritma Anda tentang hal itu menunjukkan:


  • 1% kesalahan dalam sampel pelatihan
  • 1,5% kesalahan untuk data yang diambil dari distribusi yang sama dengan sampel pelatihan, tetapi tidak ditunjukkan ke algoritma selama pelatihan
  • 10% kesalahan pada validasi dan sampel uji

. , . , .


, , , . , , : , , « », .


:


  • . , ( + ). , ( ).
  • : , ( + ). , ; , .
  • : , , , . (, )
  • : . ( )

, :


  • , , , « ».
  • , , .

5-7 « ».


41. ,


( ≈0%) , , , 0%.


, :


  • 1% .
  • 5% « ».
  • 5% .

? , . , , .
, :


  • 10% .
  • 11% « ».
  • 12% .

, . .. . .


. , , , .
:


  • 10% .
  • 11% « ».
  • 20% .

. , .
, , :


gambar


, . Y : , , , , . , .


. ( , ), , . , ( B) , . . , ( A B).


Setelah menentukan jenis kesalahan yang paling sulit dialami oleh algoritma, adalah mungkin untuk memutuskan dengan lebih tepat apakah akan fokus pada pengurangan bias, mengurangi sebaran, atau apakah Anda perlu bingung dengan perjuangan melawan inkonsistensi data.


kelanjutan


All Articles