Mengapa pembelajaran mesin menggunakan data "sintetis"

Kami membahas pendapat komunitas TI dan pakar industri. Kami juga mempertimbangkan beberapa proyek di mana mereka mengembangkan alat untuk menghasilkan data "buatan". Salah satunya diwakili oleh imigran dari Badan Keamanan Nasional AS dan Google.


Foto - Franki Chamaki - Unsplash

Masalah MO


Beberapa algoritma MO memerlukan data terstruktur agar berfungsi. Misalnya, untuk menyelesaikan masalah penglihatan mesin, mereka disediakan oleh proyek ImageNet - dalam basis datanya ada lebih dari 14 juta gambar, dibagi menjadi 22 ribu kategori. Bekerja dengan set skala besar seperti itu membuahkan hasil. Algoritma yang menggunakannya salah dalam menentukan objek dalam foto hanya dalam 3,75% kasus. Sebagai perbandingan - pada manusia, angka ini melebihi 5%.

Tetapi untuk membuat dataset seperti ImageNet untuk setiap tugas tidak mungkin. Setidaknya karena catatan di dalamnya ditandai (atau dicentang) secara manual. Pada saat yang sama, data nyata - misalnya, perbankan atau medis - dapat ditutup dan tidak dapat diakses oleh semua pengembang dan ilmuwan data. Tetapi bahkan jika data tersebut ada, mereka harus dianonimkan sebelum diproses.

Dengan solusi dari kesulitan-kesulitan ini, data sintetis membantu. Mereka buatan dan dihasilkan komputer, tetapi mereka terlihat sama nyata.

Siapa yang bekerja di bidang ini


Banyak universitas, perusahaan IT, dan startup terlibat dalam proyek di bidang ini. Misalnya, Gretel menulis perangkat lunak yang menghasilkan kumpulan data buatan berdasarkan dataset nyata. Perusahaan ini didirikan oleh sekelompok imigran dari Google, Amazon dan Badan Keamanan Nasional AS (NSA).

Pertama-tama, platform mereka menganalisis informasi yang tersedia. Insinyur menggunakan wahana skuter listrik Uber sebagai contoh . Gretel mengkategorikan mereka dan melabeli mereka, lalu menganonimkan mereka menggunakan metode privasi diferensial . Outputnya adalah "dataset sepenuhnya buatan." Kode pengembang keputusan merekadiposting di GitHub .

Proyek serupa dilaksanakan di University of Illinois di Urbana-Champaign. Para insinyur telah menulis pustaka Python yang dapat digunakan untuk menghasilkan data sintetis untuk CSV terstruktur, TSV, dan sebagian format JSON, Parket, dan Avro terstruktur sebagian. Dalam kasus pertama, para ahli menggunakan jaringan kompetitif generatif , dan yang kedua, jaringan saraf berulang .

Seberapa efektifkah data sintetis?


Mereka memberikan peluang bagi para ilmuwan dan pengembang data untuk melatih model-model proyek di area-area di mana data besar belum tersedia. Menurut untuk Alex Watson, salah satu pendiri dari Gretel, dalam banyak kasus ada cukup nilai-nilai yang hanya terlihat seperti orang-orang pengguna nyata.

Gartner memperkirakan bahwa pada tahun 2022, 40% model MO akan dilatih tentang set data sintetis.

Kepala Haze, sebuah perusahaan sistem AI, telah menghubungkan difusi teknologi dengan "fleksibilitasnya." Informasi buatan lebih mudah ditambahkan dan dimodifikasi untuk meningkatkan efektivitas model yang dilatih.

Ada juga sejumlah tugas yang terkait dengan visi komputer, di mana sulit untuk menggunakan sesuatu selain dataset sintetik - misalnya, dalam robotika. Saat merancang robot industri dan kendaraan tak berawak, pembelajaran penguatan digunakan . Dalam hal ini, sistem kecerdasan buatan belajar dengan berinteraksi langsung dengan lingkungan tertentu. Bergantung pada respons lingkungan ini, robot menyesuaikan tindakannya.

Tapi drone tidak bisa keluar dan menentukan dengan coba-coba bahwa pejalan kaki tidak bisa "dihancurkan". Oleh karena itu, para insinyur menggunakan data sintetis - mereka mensimulasikan lingkungan dalam ruang virtual. Misalnya, Nvidia menawarkan solusi untuk eksperimen semacam itu . Penelitian juga telah dilakukan pada pelatihan mesin menggunakan Grand Theft Auto V mesin permainan .


Foto - Andrea Ang - Unsplash

Terlepas dari semua kelebihan data buatan, mereka memiliki kekurangan. Mereka dianggapkurang akurat - bahkan jika dihasilkan pada data nyata - dan dapat menyebabkan model yang menghasilkan masuk akal, tetapi tidak dapat diproduksi kembali dalam hasil dunia nyata. Namun, salah satu warga Hacker News dalam utas tematik mencatat bahwa ini bukan masalah besar. Data buatan dapat digunakan untuk menguji algoritma sistem cerdas.

Pengguna lain di Hacker News mengatakan bahwa teknologi serupa mempersulit proses pembelajaran model dan meningkatkan biaya pengembangan. Kata-katanya dikonfirmasi oleh seorang spesialis dari University of Illinois - perbedaannya bisa mencapai 50%.

Bagaimanapun, set data sintetik tidak dapat dianggap sebagai "peluru perak". Ini hanyalah alat yang dapat membantu memecahkan sejumlah masalah tertentu. Tetapi mungkin saja spektrum ini akan berkembang dengan cepat.

Apa yang kami tulis di blog perusahaan kami:

Komputer yang menolak untuk mati,
"Ambil jejak kaki dan pergi untuk akhir pekan": cara menghapus diri Anda dari layanan paling populer
Alat apa yang akan membantu GDPR mencocokkan
"Almost anarchy": sejarah singkat Fidonet, sebuah proyek yang "tidak peduli" "Untuk kemenangan melalui Internet

All Articles