AutoML hebat dan kuat

Pada saat ini, mungkin, tidak ada satu orang pun yang tertarik pada teknologi informasi dan belum mendengar bahwa pembelajaran mesin, penambangan data, sistem pendukung keputusan adalah salah satu bidang utama untuk menerapkan skenario transformasi digital.

Skenario bisnis menggunakan ML (pembelajaran mesin) mencakup semua area bisnis dan menggunakan sebagian besar tipe data: tabel, teks dan audio, gambar, dll. Semakin banyak proyek, dan jumlah spesialis bertambah tidak begitu cepat. Ada gagasan bahwa bagian dari pekerjaan data "mahal" ini Para ilmuwan dapat diotomatisasi. Dan di sini AutoML datang untuk menyelamatkan.

Dengan AutoML, mereka memiliki arti berbeda. Di SAP, kami percaya ini adalah otomatisasi operasi rutin Ilmu Data. Mungkin, tidak perlu untuk menggambarkan definisi secara lebih rinci dalam artikel ini, karena Aleksey Natekin sudah melakukan semuanya dengan cukup baik di sini .

Jika Anda menonton video tidak ada keinginan, maka berikut adalah beberapa pemikiran tentang topik tersebut:

gambar

Ada contoh yang bagus tentang hal ini. Suatu ketika, dalam kelompok DS, kami membahas kasus dari praktik - seseorang yang mengklaim peran Senior DS datang untuk wawancara,
yang bisa ia lakukan hanyalah menjalankan salah satu alat AutoML yang populer. Untuk pertanyaan yang masuk akal, bagaimana seseorang bisa memenuhi syarat untuk tingkat Senior dengan pengetahuan seperti itu, jawabannya sempurna: "Saya membawa uang ke bisnis, dan ini adalah alat saya." Yaitu, AutoML dalam skenario di mana data sudah dikumpulkan dengan rapi di etalase toko, fitur domain dihasilkan, dan metrik kualitas didefinisikan, yang memungkinkan Anda untuk dengan cepat meluncurkan layanan baru. Ya, hasilnya mungkin lebih buruk daripada prof. DS, tetapi kemungkinan besar lebih baik daripada Juni, dan dalam beberapa kasus, Anda dapat langsung menggunakannya.

Berikut adalah lebih banyak contoh pendapat orang populer di komunitas tentang hal ini (komentar pertama merujuk pada diskusi tentang berita bahwa AutoML dari Google menempati posisi kedua).

gambar

Dan penggunaan sejumlah besar sumber daya diperoleh, karena sekarang tidak ada meta-pelatihan lanjutan. Lebih tepatnya, itu adalah titik dalam beberapa keputusan atau pada tahap awal kesiapan. Itu juga dapat ditemukan dalam bentuk prototipe. Sisanya adalah pencarian acak untuk hiperparameter atau pendekatan yang lebih menjanjikan: TPE, optimasi Bayesian, NAS, RL.

Agar solusi dan pendekatan AutoML dapat dibandingkan, patokan terbuka telah muncul. Solusi komersial tidak suka perbandingan seperti itu karena alasan yang sangat sederhana - konfrontasi terbuka hampir tidak mungkin. Selain akurasi, ada terlalu banyak fokus pada tipe data, penyematan dan penggunaan. Untuk membuat model itu sendiri adalah 15-20% dari pekerjaan (atau mungkin kurang), selain itu ada lapisan besar karya lain - dari transfer, hingga publikasi layanan.

SAP mengambil posisi di pasar AutoML. Kami memiliki beberapa mesin berbeda dengan tingkat kematangan berbeda.

SAP Predated Automated Library di SAP HANA, yang secara historis muncul setelah akuisisi KXEN pada 2013, dikembangkan lebih lanjut secara eksklusif sebagai alat untuk implementasi model secepat mungkin. Adalah nyaman ketika tidak ada anggaran yang besar (tepat waktu) untuk model-model pelatihan, tetapi hasil yang cukup berkualitas tinggi adalah penting. Bahkan - anggap ini versi AutoGBDT yang cepat. Sekarang ada pembungkus python yang umum bagi kebanyakan orang, dan kelihatannya seperti ini (Gbr. 1).

gambar
Gambar 1.

Cabang kedua dari solusi AutoML di SAP Data Intelligence dari SAP muncul pada Desember 2019. Ini adalah pendekatan yang dibangun berdasarkan alat open source yang sudah dikenal dan dilengkapi dengan perkembangan kami sendiri. Di sini, waktu perhitungan yang mungkin diatur, dan di dalam cluster, kombinasi optimal langkah-langkah, algoritma, dan hyperparameter dipilih, di mana pipa akhir terlihat seperti ini (Gbr. 2).

gambar
Gambar 2.

Ini adalah AutoML, yang merupakan bagian dari platform SAP Data Intelligence dan dapat bekerja di cloud dan di tempat. Juga, semua yang diperlukan untuk mengelola kumpulan data, integrasi, dan, mungkin yang paling penting, mekanisme integrasi standar dalam SAP S / 4HANA dengan generasi antarmuka dan layanan muncul di sini.

Jika kita mempertimbangkan langkah-langkah selanjutnya, cukup jelas bahwa data, dari sudut pandang bisnis, harus dipenuhi dengan penjelasan yang akan relevan untuk tugas-tugas tertentu. Ini adalah tanda-tanda domain, dan bentuk agregasi terbaik dengan hubungan tertentu dari objek bisnis, dan jaringan mikro-saraf pra-pelatihan - ekstraktor fitur.

Jika Anda melihat kompetisi dan artikel di bidang AutoML, Anda dapat dengan jelas mengidentifikasi bidang-bidang berikut:

  1. AutoTable - Data Tabular
  2. AutoCV - Gambar dan Video
  3. AutoNLP - teks
  4. AutoTS - Time Series
  5. AutoGraph - grafik
  6. AutoSpeach - suara
  7. AutoAD - mencari anomali

Saya kira juga akan ada solusi di bawah AutoRL - untuk pelatihan dengan bala bantuan.

Saat ini, SAP berfokus untuk bekerja dengan data tabular, seri waktu, dan anomali dalam hal solusi AutoML. Alasannya sederhana, hanya mungkin untuk membangun perusahaan yang cerdas dengan sejumlah besar model di setiap bidang bisnis.

Yah, tentu saja, masing-masing perusahaan memiliki spesifik sendiri, oleh karena itu, jika model standar (khas) tidak cocok, penyesuaian mereka diperlukan. Dan cara termudah untuk melakukan ini adalah menggunakan alat yang tidak memerlukan partisipasi spesialis DS.

Secara umum, banyak hal baru dan menarik menanti kita di masa depan ...

Diposting oleh Dmitry Buslov, Arsitek Solusi Bisnis Senior, SAP CIS.

All Articles