Terjemahan buku Andrew Un, Passion for Machine Learning, Bab 38 dan 39

bab sebelumnya


38. Cara menentukan apakah akan menambahkan data dengan distribusi yang berbeda


Misalkan kita ingin belajar bagaimana memperkirakan harga rumah di New York. Berdasarkan ukuran rumah (tanda input x ), perlu diprediksi harganya (nilai target y ).


Harga rumah di New York sangat tinggi. Misalkan Anda memiliki dataset harga rumah kedua di Detroit, Michigan, di mana real estat jauh lebih murah. Haruskah data ini dimasukkan dalam set pelatihan?


Dengan ukuran x yang sama , harga rumah y sangat berbeda tergantung pada apakah itu di New York atau di Detroit. Jika perlu memperkirakan harga perumahan di New York, menggabungkan kedua dataset akan memperburuk hasilnya. Dalam hal ini, lebih baik tidak menambahkan data properti Detroit ke set pelatihan.


* Catatan Penulis Salah satu cara untuk menyelesaikan masalah ketidakcocokan data Detroit dengan data New York adalah dengan menambahkan parameter tambahan untuk setiap data sampel yang menunjukkan kota. Mengingat parameter x yang menunjukkan kota, nilai target y menjadi unik. Namun, pendekatan ini jarang dilakukan. *


Bagaimana kasus ini dengan data harga real estat di New York dan Detroit berbeda dari kasus dengan gambar kucing yang diperoleh dari aplikasi mobile dan dari Internet?


, , , ( ). . f(x), x ( y), . , «» () . , ( ), .


, - , , (). , , .


39.


, 200 000 5000 . 40:1. , 205 000 , , -, .


, 40 "-", , 40 ( ) , 5000 .


, .


, ( , ). , :


gambar


5000 , 200 000. β:


gambar


β = 1/40, 5000 200 000 -. β , , .


Dengan mengurangi bobot kesalahan dalam gambar yang diperoleh dari Internet, kebutuhan akan jaringan saraf yang masif, yang diperlukan agar algoritma untuk mengatasi kedua distribusi data, menghilang. Pendekatan redistribusi bobot fungsi kesalahan ini diperlukan hanya jika ada kecurigaan bahwa data tambahan (gambar dari Internet) memiliki distribusi yang sangat berbeda dari validasi dan sampel uji, atau jika jumlah data tambahan jauh melebihi jumlah data dari distribusi yang sesuai dengan validasi dan menguji sampel (gambar dari aplikasi seluler).


kelanjutan


All Articles