Buku "Mesin Belajar tanpa kata-kata"

gambarHalo, habrozhiteli! Segala sesuatu yang benar-benar perlu Anda ketahui tentang pembelajaran mesin dapat ditampung dalam beberapa ratus halaman.

Mari kita mulai dengan kebenaran sederhana: mobil tidak belajar. Pembelajaran mesin tipikal melibatkan menemukan rumus matematika yang, ketika diterapkan pada set data input (disebut data pelatihan), akan menghasilkan hasil yang diinginkan.

Andrei Burkov mencoba memberikan segala yang diperlukan agar semua orang bisa menjadi analis modern atau spesialis pembelajaran mesin yang hebat. Apa yang berhasil masuk ke dalam beberapa ratus halaman di buku-buku lain terbentang hingga ribuan. Buku-buku umum tentang pembelajaran mesin bersifat konservatif dan akademis, di sini penekanannya adalah pada algoritma dan metode yang berguna dalam pekerjaan sehari-hari.

Kutipan 9.2.3. Menentukan jumlah cluster


Pertanyaan yang paling penting adalah berapa banyak cluster dalam dataset? Ketika vektor fitur adalah satu, dua atau tiga dimensi, Anda dapat menggambar distribusi data pada grafik dan melihat "awan" titik di ruang fitur. Setiap cloud adalah cluster potensial. Namun, untuk data dimensi-D, dengan D> 3, menggambar grafik seperti itu bermasalah.

Salah satu cara untuk menentukan jumlah cluster yang masuk akal didasarkan pada gagasan daya prediksi. Intinya adalah untuk membagi data ke dalam set pelatihan dan tes, seperti yang dilakukan dalam mengajar dengan seorang guru. Setelah memilih set pelatihan dan tes, Str dengan ukuran Ntr dan Ste dengan ukuran Nte, masing-masing, Anda memperbaiki jumlah cluster k, menjalankan algoritma pengelompokan C pada set Str dan Ste dan mendapatkan hasil pengelompokan C (Str, k) dan C (Ste, k).

Misalkan A adalah hasil dari pengelompokan C (Str, k) yang diperoleh untuk set pelatihan. Cluster di A dapat dianggap sebagai daerah. Jika sampel jatuh ke salah satu area ini, itu berarti bahwa itu milik beberapa cluster tertentu. Sebagai contoh, jika kita menerapkan algoritma k means pada kumpulan data tertentu, hasilnya adalah partisi ruang fitur menjadi k daerah poligonal, seperti yang ditunjukkan pada Gambar. 9.2.

Kami mendefinisikan matriks Nte × Nte dari keanggotaan bersama D [A, Ste], yang elemennya D [A, Ste] (i, i`) = 1 jika dan hanya jika data xi dan xi` dari set tes milik cluster yang sama, menurut ke partisi A. Jika tidak, D [A, Ste] (i, i`) = 0.

Dan sekarang mari kita berhenti dan melihat apa yang terjadi. Kami membuat partisi A menggunakan dataset pelatihan ke dalam k cluster. Kemudian kami membangun matriks afiliasi bersama yang menunjukkan apakah dua sampel dari set tes milik satu kluster di A.

Jelas, jika k masuk akal, maka dua sampel milik kluster yang sama dalam larutan C (Ste, k) kemungkinan besar adalah milik satu cluster dalam solusi dan C (Str, k). Di sisi lain, jika nilai k tidak masuk akal (terlalu tinggi atau terlalu rendah), maka partisi yang didasarkan pada data pelatihan dan pengujian cenderung kurang konsisten.

Dalam gbr. 9.3 menunjukkan data yang digunakan, dan Gambar. 9.4 mengilustrasikan ide tersebut. Grafik dalam gambar. 9.4a dan 9.4b menunjukkan hasil C (Str, 4) dan C (Ste, 4) dengan daerah cluster yang sesuai. Dalam gbr. 9.4c menunjukkan data uji yang diplot pada area cluster yang diperoleh selama pengelompokan data pelatihan. Dalam gbr. 9.4c, Anda dapat melihat bahwa data uji oranye tidak lagi milik satu cluster sesuai dengan area yang diperoleh pada data pelatihan. Akibatnya, banyak nol muncul dalam matriks D [A, Ste], yang pada gilirannya menunjukkan bahwa k = 4 mungkin bukan jumlah cluster terbaik.

Kekuatan prediksi yang lebih formal dari jumlah cluster k didefinisikan sebagai di

gambar

mana gambarcluster ke - j dari partisi C (Ste, k) dan | Aj | Apakah jumlah data di cluster Aj.

gambar

Dengan mempertimbangkan partisi C (Str, k) untuk setiap kelompok uji, fraksi pasangan di dalamnya dihitung, yang juga jatuh ke dalam kelompok yang sama, ditentukan oleh pusat massa untuk set pelatihan. Kekuatan prediktif ditentukan oleh setidaknya nilai ini untuk kelompok uji k.

Seperti yang diperlihatkan percobaan, sejumlah kluster yang masuk akal adalah k terbesar di ps (k) di atas 0,8. Gambar 9.5 menunjukkan contoh penentuan kekuatan prediksi nilai k yang berbeda untuk data yang dibagi menjadi dua, tiga dan empat kelompok.

Untuk algoritma pengelompokan non-deterministik, seperti k means, yang dapat menghasilkan opsi partisi yang berbeda, tergantung pada posisi awal centroid, disarankan untuk melakukan beberapa algoritma pengelompokan berjalan untuk k yang sama dan menghitung gaya prediksi rata-ratagambar

gambar

Metode lain yang efektif untuk memperkirakan jumlah cluster disebut statistik gap. Lain, metode kurang otomatis yang masih digunakan oleh beberapa analis termasuk metode siku dan metode siluet rata-rata.

»Informasi lebih lanjut tentang buku ini dapat ditemukan di situs web penerbit
» Isi
» Kutipan

Untuk Khabrozhiteley Diskon 25% pada kupon - Pembelajaran Mesin

Setelah pembayaran versi kertas buku, sebuah buku elektronik dikirim melalui email.

All Articles