49. Pro dan kontra dari pembelajaran end-to-end

Kami terus mempertimbangkan sistem pengenalan ucapan:

Sebagian besar elemen konveyor ini dibuat tanpa menggunakan pembelajaran mesin (dikembangkan oleh orang atau desain tangan):

MFCC adalah serangkaian fitur suara yang diekstraksi oleh manipulasi matematika dengan frekuensi yang tidak memerlukan algoritma pembelajaran. Ini memberikan konvolusi yang mudah dari sinyal yang masuk dengan hilangnya informasi yang tidak relevan.
Fonem - penemuan ahli bahasa. Menggunakannya, model sederhana dari suara-suara ucapan hidup dibuat. Seperti model fenomena kompleks apa pun, fonem tidak sempurna, kualitas sistem yang menjadi bagiannya dibatasi oleh cerminan realitas yang tidak sempurna.

Di satu sisi, algoritma non-pembelajaran (komponen rekayasa-tangan) membatasi potensi kinerja sistem bicara. Di sisi lain, penggunaannya memiliki kelebihan tertentu:

Fungsi-fungsi MFCC tahan terhadap sifat-sifat ucapan tertentu yang tidak mempengaruhi makna dari apa yang dikatakan, misalnya, nada suara. Aplikasi mereka menyederhanakan tugas untuk algoritma yang terlatih.
Fonem , jika mereka dengan benar mencerminkan suara ucapan yang sebenarnya, membantu algoritma pembelajaran untuk menangkap elemen suara dasar, meningkatkan kualitas kerjanya

:
gambar
, (hand-engineered), . , , , (hand-engineered pipeline).

, , MFCC . , , , , , .

, , , « » — . , ( , ). , , .

, , . . . , (hand engineering).

, , . .

50. :

? . .
:

. , , . (, Amazon Mechanical Turk) . , .

, :

, , (: , ). , . . , . . .

Secara umum, jika sampel besar tersedia untuk melatih “modul perantara” konveyor (seperti detektor mobil atau detektor pejalan kaki), maka Anda dapat mempertimbangkan untuk menggunakan konveyor yang terdiri dari beberapa komponen. Pendekatan non-silang ini lebih disukai, karena memungkinkan Anda untuk menggunakan semua data yang tersedia.

Saya percaya bahwa sampai ada lebih banyak data untuk pelatihan sistem end-to-end, pendekatan (pipa) non-ujung-ke-jauh jauh lebih menjanjikan untuk pengembangan sistem mengemudi otonom: arsitekturnya lebih cocok dengan data yang tersedia.

kelanjutan

Terjemahan buku Andrew Un, Passion for Machine Learning, Bab 49 dan 50

49. Pro dan kontra dari pembelajaran end-to-end

50. :

More articles: