Insinyur Data dan Ilmuwan Data: apa bedanya?

Profesi Ilmuwan Data dan Insinyur Data sering bingung. Setiap perusahaan memiliki kekhasan masing-masing untuk bekerja dengan data, tujuan analisis yang berbeda, dan gagasan berbeda tentang spesialis mana yang harus dilibatkan dalam bagian pekerjaan apa, oleh karena itu masing-masing memiliki persyaratan sendiri. 

Kami memahami apa perbedaan antara para spesialis ini, masalah bisnis apa yang mereka selesaikan, keterampilan apa yang mereka miliki dan berapa banyak yang mereka hasilkan. Bahannya ternyata besar, jadi kami membaginya menjadi dua publikasi.

Dalam artikel pertama, Elena Gerasimova, kepala Departemen Ilmu Data dan Analisis dalam Netologi, menceritakan perbedaan antara Ilmuwan Data dan Insinyur Data dan alat apa yang mereka gunakan.

Bagaimana peran para insinyur dan ilmuwan berbeda


Seorang insinyur data adalah spesialis yang, di satu sisi, mengembangkan, menguji, dan memelihara infrastruktur untuk bekerja dengan data: basis data, penyimpanan, dan sistem pemrosesan massal. Di sisi lain, itu adalah orang yang membersihkan dan "menyisir" data untuk digunakan oleh analis dan ilmuwan data, yaitu menciptakan saluran pengolahan data.

Data Scientist menciptakan dan melatih model prediksi (dan tidak hanya) menggunakan algoritma pembelajaran mesin dan jaringan saraf, membantu bisnis menemukan pola tersembunyi, memprediksi peristiwa, dan mengoptimalkan proses bisnis utama.

Perbedaan utama antara Ilmuwan Data dan Insinyur Data adalah bahwa mereka biasanya memiliki tujuan yang berbeda. Keduanya berfungsi untuk memastikan bahwa data dapat diakses dan berkualitas tinggi. Tetapi Data Scientist menemukan jawaban untuk pertanyaannya dan menguji hipotesis dalam ekosistem data (misalnya, berdasarkan Hadoop), dan Data Engineer membuat saluran untuk melayani algoritma pembelajaran mesin yang ditulis oleh seorang ilmuwan data dalam cluster Spark dalam ekosistem yang sama. 

Seorang insinyur data memberi nilai pada bisnis dengan bekerja sebagai sebuah tim. Tugasnya adalah untuk bertindak sebagai penghubung penting antara peserta yang berbeda: dari pengembang ke konsumen pelaporan bisnis, dan untuk meningkatkan produktivitas analis - dari pemasaran dan produk ke BI. 

Data Scientist, sebaliknya, secara aktif terlibat dalam strategi perusahaan dan mengekstraksi wawasan, membuat keputusan, menerapkan algoritma otomatisasi, pemodelan, dan menghasilkan nilai dari data.


Bekerja dengan data mematuhi prinsip GIGO (sampah dalam sampah): jika analis dan ilmuwan data menangani data yang tidak siap dan berpotensi salah, maka hasilnya, bahkan dengan algoritma analisis yang paling canggih, akan salah. 

Insinyur data menyelesaikan masalah ini dengan membangun saluran pipa untuk memproses, membersihkan, dan mentransformasikan data dan memungkinkan ilmuwan data bekerja dengan data berkualitas tinggi. 

Ada banyak alat di pasaran untuk bekerja dengan data yang mencakup setiap tahapan: dari tampilan data hingga output ke dasbor untuk dewan direksi. Dan penting bahwa keputusan tentang penggunaannya dibuat oleh insinyur, bukan karena itu modis, tetapi karena itu benar-benar akan membantu sisa peserta dalam pekerjaan. 

Secara kondisional: jika perusahaan perlu berteman dengan BI dan ETL - mengunduh data dan memperbarui laporan, berikut ini adalah yayasan warisan khas yang akan ditangani oleh Insinyur Data (well, jika tim memiliki arsitek selainnya).

Tanggung Jawab Insinyur Data

  • Pengembangan, konstruksi, dan pemeliharaan infrastruktur data.
  • Penanganan kesalahan dan pembuatan pipa pemrosesan data yang andal.
  • Membawa data tidak terstruktur dari berbagai sumber dinamis ke bentuk yang diperlukan untuk pekerjaan analis.
  • .
  • , - .
  • .
  • , , .
  • ( ).

Ada spesialisasi lain dalam lintasan Data Engineer - insinyur ML. Singkatnya, para insinyur tersebut berspesialisasi dalam membawa model pembelajaran mesin ke penyebaran dan penggunaan industri. Seringkali, model yang diterima dari ilmuwan data adalah bagian dari penelitian dan mungkin tidak berfungsi dalam pertempuran.

Tanggung jawab Ilmuwan Data

  • Ekstrak fitur dari data untuk menerapkan algoritma pembelajaran mesin.
  • Menggunakan berbagai alat pembelajaran mesin untuk memprediksi dan mengklasifikasikan pola dalam data.
  • Meningkatkan kinerja dan akurasi algoritma pembelajaran mesin dengan menyempurnakan dan mengoptimalkan algoritma.
  • Pembentukan hipotesis "kuat" sesuai dengan strategi perusahaan, yang harus diperiksa.

Data Engineer, Data Scientist , .


Saat ini, harapan dari para profesional pemrosesan data telah berubah. Sebelumnya, para insinyur mengumpulkan pertanyaan SQL besar, secara manual menulis MapReduce dan memproses data menggunakan alat-alat seperti Informatica ETL, Pentaho ETL, Talend. 

Pada tahun 2020, seorang spesialis tidak dapat melakukannya tanpa sepengetahuan Python dan alat modern untuk komputasi (misalnya, Airflow), memahami prinsip-prinsip bekerja dengan platform cloud (menggunakannya untuk menghemat perangkat keras, sambil mengamati prinsip-prinsip keamanan).

SAP, Oracle, MySQL, Redis adalah alat tradisional untuk seorang insinyur data di perusahaan besar. Mereka baik, tetapi biaya lisensi begitu tinggi sehingga belajar bekerja dengan mereka hanya masuk akal dalam proyek-proyek industri. Pada saat yang sama, ada alternatif gratis dalam bentuk Postgres - gratis dan cocok tidak hanya untuk pelatihan. 


Secara historis, Java dan Scala sering diminta, meskipun seiring perkembangan teknologi dan pendekatan, bahasa-bahasa ini menghilang ke latar belakang.

Namun demikian, hardcore BigData: Hadoop, Spark dan seluruh kebun binatang tidak lagi merupakan prasyarat untuk seorang insinyur data, tetapi semacam alat untuk menyelesaikan tugas-tugas yang tidak dapat dipecahkan oleh ETL tradisional. 

Dalam tren adalah layanan untuk menggunakan alat tanpa mengetahui bahasa di mana mereka ditulis (misalnya, Hadoop tanpa pengetahuan Jawa), serta menyediakan layanan siap pakai untuk memproses data streaming (pengenalan suara atau gambar di video).

Solusi industri dari SAS dan SPSS sangat populer, dengan Tableau, Rapidminer, Stata dan Julia juga banyak digunakan oleh para ilmuwan data untuk tugas-tugas lokal.


Analis dan ilmuwan data hanya memiliki kesempatan untuk membangun jaringan pipa beberapa tahun yang lalu: misalnya, sudah dimungkinkan untuk mengirim data ke penyimpanan berbasis PostgreSQL dengan skrip yang relatif sederhana. 

Biasanya, penggunaan jaringan pipa dan struktur data terintegrasi tetap menjadi tanggung jawab insinyur data. Tapi hari ini, lebih dari sebelumnya, tren kuat untuk spesialis berbentuk T - dengan kompetensi yang luas di bidang terkait, karena alat terus disederhanakan.

Mengapa Insinyur Data dan Ilmuwan Data Bekerja Bersama


Bekerja sama dengan para insinyur, Data Scientist dapat fokus pada bagian penelitian, menciptakan algoritma pembelajaran mesin yang siap pakai.
Dan para insinyur fokus pada skalabilitas, penggunaan kembali data, dan memastikan bahwa input dan output pipa data di setiap proyek individu konsisten dengan arsitektur global.

Pemisahan tugas ini memastikan koherensi antara tim spesialis yang bekerja pada proyek pembelajaran mesin yang berbeda. 

Kolaborasi membantu secara efektif menciptakan produk baru. Kecepatan dan kualitas dicapai berkat keseimbangan antara menciptakan layanan untuk semua orang (penyimpanan global atau integrasi dashboard) dan implementasi setiap kebutuhan atau proyek spesifik (pipa yang sangat khusus, menghubungkan sumber-sumber eksternal). 

Bekerja sama dengan ilmuwan dan analis data membantu insinyur mengembangkan keterampilan analitis dan penelitian untuk menulis kode yang lebih baik. Pertukaran pengetahuan antara pengguna gudang data dan danau data meningkat, yang membuat proyek lebih fleksibel dan memberikan hasil jangka panjang yang lebih berkelanjutan.

Di perusahaan yang bertujuan mengembangkan budaya bekerja dengan data dan membangun proses bisnis berdasarkan data tersebut, Data Scientist dan Data Engineer saling melengkapi dan menciptakan sistem analisis data yang lengkap. 

Pada artikel berikutnya, kita akan berbicara tentang pendidikan seperti apa yang harus dimiliki oleh Insinyur Data dan Ilmuwan Data, keterampilan apa yang mereka butuhkan untuk berkembang, dan bagaimana pasar bekerja.

Dari editor Netology


Jika Anda melihat secara dekat profesi Insinyur Data atau Ilmuwan Data, kami mengundang Anda untuk mempelajari program-program kursus kami:


All Articles