Fleksibilitas dan otomatisasi dalam pembelajaran mesin

Dalam artikel ini saya ingin berbicara tentang kesulitan utama otomatisasi pembelajaran mesin, sifat dan kelebihannya, dan juga mempertimbangkan pendekatan yang lebih fleksibel yang memungkinkan Anda untuk menjauh dari beberapa kekurangan.

gambar

Otomatisasi, menurut definisi, Mikell P. Groover adalah teknologi di mana suatu proses atau prosedur dilakukan dengan keterlibatan manusia yang minimal. Otomasi telah lama dapat mencapai peningkatan produktivitas, yang seringkali mengarah pada biaya yang lebih rendah per unit produk. Metode otomasi, serta area aplikasinya, berkembang pesat dan selama berabad-abad terakhir telah berevolusi dari mekanisme sederhana menjadi robot industri. Otomatisasi mulai memengaruhi tidak hanya pekerjaan fisik, tetapi juga intelektual, sampai ke area yang relatif baru, termasuk pembelajaran mesin - pembelajaran mesin otomatis (ml otomatis, aml). Pada saat yang sama, otomatisasi pembelajaran mesin telah menemukan aplikasinya di sejumlah produk komersial (misalnya, Google AutoML, SAP AutoML, dan lainnya).

gambargambargambar

Penolakan
Artikel ini tidak berpura-pura dogmatis di bidangnya dan merupakan visi penulis.

Pembelajaran Mesin Otomatis


Tugas-tugas di bidang pemrosesan data dan pembelajaran mesin dikaitkan dengan banyak faktor yang muncul karena kompleksitas sistem dan menyulitkan solusinya. Ini termasuk ( menurut Charles Sutton ):

  • Kehadiran ketidakpastian dan ketidakpastian, yang mengarah pada kurangnya pengetahuan apriori data dan ketergantungan yang diinginkan. Dengan demikian, elemen penelitian selalu hadir.
  • "Kematian karena seribu luka." Dalam praktiknya, ketika membangun saluran pipa untuk pemrosesan dan analisis data dan pemodelan selanjutnya, Anda harus membuat banyak keputusan besar dan kecil. Misalnya, apakah perlu untuk menormalkan data, jika demikian, metode apa, dan parameter apa yang harus dimiliki metode ini? Dll
  • Kehadiran loop umpan balik yang dihasilkan dari ketidakpastian. Semakin lama perendaman dalam tugas dan data berlangsung, semakin banyak Anda dapat mempelajarinya. Ini mengarah pada kebutuhan untuk mengambil langkah mundur dan membuat perubahan pada mekanisme pemrosesan dan analisis yang ada.
  • Selain itu, hasil model yang diperoleh oleh algoritma pembelajaran mesin hanya merupakan perkiraan realitas, mis. jelas tidak akurat.

gambar

Dengan demikian, proses memperoleh pipeline penuh dari pemrosesan dan analisis data dapat dianggap sebagai sistem yang kompleks (yaitu, sistem yang kompleks).

Sistem yang kompleks
Peter Sloot, « » « », . , () , , () , () .. , , .

Di satu sisi, kehadiran faktor-faktor ini menyulitkan solusi mesin dan masalah pembelajaran yang dalam dan otomasi mereka. Di sisi lain, kemampuan komputasi yang terus tumbuh dan semakin mudah diakses memungkinkan kami untuk melampirkan lebih banyak sumber daya ke tugas.

gambarMenurut standar CRISP-DM yang umum, siklus hidup suatu proyek terkait dengan analisis data secara iteratif terdiri dari enam tahap utama: memahami tugas bisnis (pemahaman bisnis), memahami dan mempelajari data (pemahaman data), memproses data (persiapan data), pemodelan ( pemodelan), penilaian kualitas (evaluasi) dan aplikasi praktis (penyebaran, aplikasi). Dalam praktiknya, tidak semua langkah ini dapat diotomatisasi secara efektif hari ini.

Sebagian besar karya atau perpustakaan yang ada (H2O, auto-sklearn, autokeras) fokus pada pemodelan otomatisasi dan sebagian pada penilaian kualitas. Namun, perluasan pendekatan terhadap otomatisasi pemrosesan data memungkinkan mencakup lebih banyak tahapan (yang, misalnya, diterapkan dalam layanan Google AutoML).

Perumusan masalah


Tugas pembelajaran mesin dengan guru dapat diselesaikan dengan berbagai metode, yang sebagian besar dikurangi untuk meminimalkan fungsi kerugian atau maksimalkan fungsi kemungkinanJ , untuk mendapatkan estimasi parameterLθ^m berdasarkan pada dataset sampel - pelatihan yang tersedia yt:

All Articles