Pavel Klemenkov, NVIDIA: Kami mencoba untuk mempersempit kesenjangan antara apa yang dapat dilakukan oleh seorang ilmuwan data dan apa yang harus dia lakukan.

Set kedua siswa program magister dalam ilmu data dan intelijen bisnis Ozon Masters dimulai - dan untuk memutuskan untuk meninggalkan aplikasi dan lulus pengujian online itu lebih mudah, kami bertanya kepada para guru program apa yang diharapkan dari pelatihan dan bekerja dengan data.

gambar Kepala Ilmuwan Data NVIDIA dan Big Data dan guru mata kuliah Rekayasa Data Pavel Klemenkov berbicara tentang mengapa ahli matematika menulis kode dan belajar di Ozon Masters selama dua tahun.

- Apakah ada banyak perusahaan yang menggunakan algoritma ilmu data?


- Sebenarnya banyak. Cukup banyak perusahaan besar yang memiliki data sangat besar baik mulai bekerja dengan mereka secara efisien atau telah bekerja untuk waktu yang lama. Jelas bahwa setengah dari pasar menggunakan data yang dapat masuk ke dalam tablet Excel atau dapat dihitung pada server besar, tetapi tidak mungkin untuk mengatakan bahwa hanya ada beberapa bisnis yang dapat bekerja dengan data.

- Ceritakan sedikit tentang proyek yang menggunakan ilmu data.


- Misalnya, saat bekerja di Rambler, kami membuat sistem periklanan yang bekerja berdasarkan prinsip RTB (Penawaran Waktu Nyata) - kami perlu membuat banyak model yang akan mengoptimalkan pembelian iklan atau, misalnya, dapat memprediksi kemungkinan klik, konversi, dan sebagainya. Pada saat yang sama, pelelangan iklan menghasilkan banyak data: log permintaan situs untuk pembeli potensial iklan, log tayangan iklan, log klik - ini adalah puluhan terabyte data per hari.

Selain itu, untuk tugas-tugas ini kami mengamati sebuah fenomena menarik: semakin banyak data yang Anda berikan untuk pelatihan model, semakin tinggi kualitasnya. Biasanya, untuk sejumlah data tertentu, kualitas perkiraan berhenti meningkat, dan untuk lebih meningkatkan akurasi, Anda perlu menggunakan model yang berbeda secara mendasar, pendekatan berbeda untuk persiapan data, fitur, dan sebagainya. Di sini kami menuangkan lebih banyak data dan kualitasnya meningkat.

Ini adalah kasus khusus di mana analis harus, pertama, bekerja dengan set data besar untuk setidaknya melakukan percobaan, dan di mana tidak mungkin untuk bertahan dengan sampel kecil yang cocok dengan macbook yang nyaman. Pada saat yang sama, kami membutuhkan model yang didistribusikan, karena kalau tidak, tidak mungkin untuk melatih mereka. Dengan diperkenalkannya visi komputer dalam produksi, contoh-contoh seperti itu menjadi lebih umum, karena gambar adalah sejumlah besar data, dan jutaan gambar diperlukan untuk melatih model yang besar.

Pertanyaan segera muncul: bagaimana cara menyimpan semua informasi ini, bagaimana memprosesnya secara efisien, bagaimana menggunakan algoritma pembelajaran terdistribusi - fokus dari matematika kosong bergeser ke arah teknik. Bahkan jika Anda tidak menulis kode dalam produksi, Anda harus dapat bekerja dengan alat-alat teknik untuk melakukan percobaan.

- Bagaimana pendekatan untuk lowongan ilmu data berubah dalam beberapa tahun terakhir?


- Data besar telah berhenti menjadi hype dan menjadi kenyataan. Hard drive cukup murah, yang berarti ada peluang untuk mengumpulkan semua data secara umum, sehingga di masa depan mereka akan cukup untuk menguji hipotesis apa pun. Akibatnya, pengetahuan tentang alat untuk bekerja dengan data besar menjadi sangat populer, dan sebagai hasilnya, semakin banyak kesempatan kerja untuk insinyur data muncul.

Dalam pemahaman saya, hasil karya ilmuwan data bukanlah percobaan, tetapi produk yang telah mencapai produksi. Dan hanya dari sudut pandang ini, sebelum munculnya hype di sekitar data besar, prosesnya lebih sederhana: insinyur terlibat dalam pembelajaran mesin untuk memecahkan masalah tertentu, dan tidak ada masalah dengan membawa algoritma ke produksi.

- Apa yang diperlukan untuk tetap menjadi spesialis yang dicari?


- Sekarang banyak orang telah datang ke ilmu data yang telah belajar matematika, teori pembelajaran mesin, berpartisipasi dalam kontes analisis data di mana infrastruktur siap pakai disediakan: data dibersihkan, metrik didefinisikan, dan tidak ada persyaratan agar solusi dapat direproduksi dan cepat.

Akibatnya, orang-orang yang kurang siap untuk realitas bisnis mulai bekerja, dan kesenjangan terbentuk antara pemula dan pengembang berpengalaman.

Dengan pengembangan alat yang memungkinkan Anda untuk merakit model Anda sendiri dari modul yang sudah jadi - dan Microsoft, Google dan banyak lainnya sudah memiliki solusi seperti itu - dan otomatisasi pembelajaran mesin, kesenjangan ini akan menjadi lebih jelas. Di masa depan, profesi ini akan membutuhkan peneliti serius yang menghasilkan algoritma baru, dan karyawan dengan keterampilan teknik canggih yang akan menerapkan model dan mengotomatisasi proses. Hanya kursus Ozon Masters dalam rekayasa data yang difokuskan pada pengembangan keterampilan teknik dan kemampuan untuk menggunakan algoritma pembelajaran mesin terdistribusi pada data besar. Kami mencoba untuk mempersempit kesenjangan antara apa yang dapat dilakukan oleh seorang ilmuwan data dan apa yang seharusnya dapat ia lakukan dalam praktik.

- Mengapa matematika dengan ijazah belajar di bisnis?


- Komunitas ilmu data Rusia telah memahami bahwa keterampilan dan pengalaman sangat cepat diubah menjadi uang, oleh karena itu, segera setelah spesialis memiliki pengalaman praktis, biayanya mulai tumbuh dengan sangat cepat, orang-orang paling terampil sangat mahal - dan ini benar pada saat pengembangan saat ini pasar.

Sebagian besar pekerjaan ilmuwan data adalah masuk ke dalam data, memahami apa yang ada di sana, berkonsultasi dengan orang-orang yang bertanggung jawab atas proses bisnis dan menghasilkan data ini - dan baru kemudian menggunakannya untuk membuat model. Untuk mulai bekerja dengan data besar, sangat penting untuk memiliki keterampilan teknik - jauh lebih mudah untuk menghindari sudut tajam, yang banyak dalam ilmu data.

Kisah khas: Anda menulis kueri SQL yang dijalankan menggunakan kerangka kerja Hive, yang berjalan pada data besar. Permintaan diproses dalam sepuluh menit, dalam kasus terburuk - dalam satu atau dua jam, dan seringkali, ketika Anda menerima unggahan data ini, Anda menyadari bahwa Anda lupa mempertimbangkan beberapa faktor atau informasi tambahan. Anda harus mengirim ulang permintaan dan menunggu menit dan jam ini. Jika Anda seorang jenius efisiensi, maka kami akan mengambil tugas lain, tetapi, seperti yang ditunjukkan oleh praktik, kami memiliki sedikit jenius efisiensi, dan orang-orang hanya menunggu. Oleh karena itu, dalam kursus kami akan mencurahkan banyak waktu untuk bekerja efisiensi untuk awalnya menulis pertanyaan yang bekerja tidak selama dua jam, tetapi selama beberapa menit. Keahlian ini melipatgandakan produktivitas, dan dengan itu nilai spesialis.

- Apa bedanya Master Ozon dengan program lainnya?


- Karyawan Ozon mengajar di Ozon Masters, dan tugas didasarkan pada kasus bisnis nyata yang diselesaikan di perusahaan. Bahkan, di samping kurangnya keterampilan teknik, orang yang telah mempelajari ilmu data di universitas memiliki masalah lain: tugas bisnis dirumuskan dalam bahasa bisnis, dan tujuannya cukup sederhana: menghasilkan lebih banyak uang. Dan ahli matematika tahu betul bagaimana mengoptimalkan metrik matematika - tetapi menemukan metrik yang akan berkorelasi dengan metrik bisnis sulit. Dan Anda perlu memahami bahwa Anda sedang memecahkan masalah bisnis, merumuskan metrik yang dapat dioptimalkan secara matematis bersama dengan bisnis. Keahlian ini diperoleh dengan mengorbankan kasus nyata, dan Ozon memberi mereka.
Dan bahkan jika Anda menjatuhkan kasus, sekolah mengajarkan banyak praktisi yang memecahkan masalah bisnis di perusahaan nyata. Akibatnya, pendekatan mengajar masih lebih praktis. Setidaknya dalam kursus saya, saya akan mencoba mengalihkan fokus tentang cara menggunakan alat, pendekatan apa yang ada, dan sebagainya. Bersama siswa, kita akan memahami bahwa setiap tugas memiliki alatnya sendiri, dan setiap alat memiliki bidang penerapan.

- Program pelatihan paling terkenal dalam analisis data, tentu saja, ShAD - apa perbedaannya?


- Jelas bahwa ShAD dan Ozon Masters, selain fungsi pendidikan, menyelesaikan masalah pelatihan lokal. Lulusan SHAD top terutama direkrut ke Yandex, tetapi yang menarik adalah Yandex, karena kekhususannya - dan itu besar dan diciptakan ketika ada beberapa alat yang bagus untuk bekerja dengan data besar - memiliki infrastruktur dan alat sendiri untuk bekerja dengan data, yang berarti harus menguasainya. Ozon Masters memiliki pesan yang berbeda - jika Anda telah berhasil menguasai program dan Ozon atau salah satu dari 99% perusahaan lain mengundang Anda untuk bekerja, akan jauh lebih mudah untuk mulai menguntungkan bisnis, keterampilan yang diperoleh melalui Ozon Masters akan cukup untuk mulai bekerja.

- Kursus berlangsung dua tahun. Mengapa butuh banyak waktu?


- Pertanyaan bagus. Untuk waktu yang lama, karena konten dan tingkat guru adalah program master yang tidak terpisahkan, membutuhkan banyak waktu untuk penguasaan, termasuk pekerjaan rumah.

Dari sudut pandang mata kuliah saya, berharap bahwa siswa akan menghabiskan 2-3 jam seminggu untuk tugas adalah hal yang biasa. Pertama, tugas dilakukan pada cluster pelatihan, dan setiap cluster umum menyiratkan bahwa beberapa orang menggunakannya secara bersamaan. Artinya, Anda harus menunggu tugas mulai berjalan, beberapa sumber daya dapat dipilih dan ditransfer ke antrian prioritas yang lebih tinggi. Di sisi lain, pekerjaan apa pun dengan big data memakan waktu.

, β€” , 25 12:00, Ozon Masters . c Zoom YouTube.

All Articles