Apakah layanan transkripsi online aman dan rahasia?

Halo, Habr! Saya mempersembahkan kepada Anda terjemahan artikel "Apakah Layanan Transkripsi Online Aman dan Pribadi?" penulis Matthew Hughes .

Transkripsi dulunya merupakan proses manual dan membosankan. Dokter, jurnalis, dan segerombolan profesional menuliskan catatan dan percakapan mereka pada perekam, dan kemudian duduk di depan komputer untuk mengetikkannya pada keyboard.

Pada tahun 2020, ada sejumlah layanan yang dapat Anda gunakan untuk mengubah rekaman audio Anda menjadi teks. Namun, pertanyaannya tetap: Apakah mereka aman? Misalnya, Anda dapat mengunduh rekaman percakapan sensitif dan pesan suara pribadi.

Mari kita lihat layanan ini, dan bagaimana Anda dapat melindungi informasi Anda.

gambar
Ilustrasi oleh Yangard
Lisensi Creative Commons
Gambar ini dilisensikan di bawah Lisensi Global Creative Commons Attribution-ShareAlike 4.0 .

Cara kerja layanan transkripsi audio


Layanan transkripsi audio, biasanya, dibagi menjadi tiga kategori. Yang pertama sepenuhnya dikendalikan oleh komputer dan menggunakan AI dan model pembelajaran mesin yang ada untuk menangani percakapan. Yang kedua adalah yang paling mahal, ketika orang menyelesaikan seluruh proses. Yang ketiga adalah kombinasi antara pemrosesan komputer dan manusia.

Kemungkinan besar, Anda paling akrab dengan kategori pertama. Layanan transkripsi suara - seperti Google, Apple, dan Otter.ai - mengubah gelombang analog yang dibuat oleh suara Anda menjadi representasi digital. Kemudian mereka dibagi menjadi segmen-segmen kecil (kadang-kadang seperseribu detik) dan dibandingkan dengan "fonem-fonem" atau elemen-elemen bahasa yang terkenal.

Kemudian algoritma ini mencoba mempertimbangkannya dalam konteks fonem lain dan meneruskannya melalui model statistik dan AI, yang pada akhirnya menghasilkan teks. Karena layanan transkripsi ini sepenuhnya dikendalikan oleh komputer, mereka biasanya yang paling murah. Namun, akurasi tidak selalu normal, terutama ketika datang untuk mengekstraksi teks dari lingkungan yang bising atau multi-pengguna.

Transkripsi manusia mencakup platform spesifik, seperti Rev , yang menghubungkan klien ke kumpulan transkriptor yang disetujui sebelumnya. Anda juga dapat mempekerjakan seseorang dari karyawan lepas, seperti Upwork atau Fiverr .

Akhirnya, ada campuran keduanya. Untuk mempercepat proses transkripsi, beberapa situs memungkinkan AI untuk melakukan pekerjaan pendahuluan, dan kemudian seseorang menghapus output dan memperbaiki kesalahan.

Layanan transkripsi berperilaku buruk


Dalam beberapa tahun terakhir, banyak layanan transkripsi telah menjadi subyek pelanggaran dan skandal.

Mungkin yang tertua (dan mungkin paling mengerikan) adalah SpinVox, yang dalam "noughties" menawarkan layanan yang mengubah pesan suara menjadi pesan SMS. Pada saat itu dianggap sebagai terobosan teknologi. Perusahaan dengan cepat menarik ulasan positif dari pers, pelanggan, dan pendanaan yang luas.

Apa masalahnya? Diam-diam dari pelanggan, pesan suara mereka diproses oleh orang-orang yang bekerja dari kantor yang berlokasi di Pakistan, Mauritius dan Afrika Selatan . Satu perusahaan orang dalam mengklaim bahwa hanya 2% dari pesan suara diproses oleh mesin, dan sisanya diproses oleh sekitar 10.000 pekerja yang dipekerjakan.

Ketika kantor SpinVox Pakistan tidak dibayar, mereka mulai mengirim pesan langsung ke pelanggan sebagai protes. Akibatnya, kebenaran keluar, dan SpinVox kehilangan sebagian besar nilainya, dan sisanya perusahaan dijual ke Nuance , salah satu penyedia layanan pengenal suara terbesar di dunia.

Baru-baru ini, jurnalis keamanan cyber Brian Krebs telah menemukan pelanggaran serius di MEDantex , penyedia layanan transkripsi suara Kansas untuk penyedia layanan kesehatan. Ada kebocoran data (beberapa di antaranya berasal dari 2007) yang berisi catatan medis rahasia. Konten mereka dapat diunduh dari portal yang tidak aman dalam bentuk file Microsoft Word.

Bahkan layanan transkripsi digital sepenuhnya tidak aman. Anda memesan layanan terkomputerisasi seperti itu, dan perusahaan dapat menggunakannya untuk mengontrol kualitas orang yang bekerja di bawah kontrak.

Pada tahun 2019, situs berita Belgia VRT NWS menemukan bahwa kontraktor Google mendengarkan percakapan antara orang-orang dan asisten cerdas mereka di Google Home. Salah satu kontraktor bahkan memberi VRT NWS akses ke percakapan, banyak di antaranya sangat sensitif, dan dalam beberapa kasus intim secara seksual.

Amazon, Apple dan Microsoft juga menggunakan kontraktor. Dengan kata lain, seseorang dapat mendengarkan rekaman suara asisten virtual Anda .

Pertanyaan aktual: Apakah layanan transkripsi online aman?


Jawaban atas pertanyaan ini agak rumit.

Saat ini, pasar sebagian besar sudah matang untuk layanan transkripsi, dan pemain yang paling buruk telah dieliminasi.

Namun, ketika Anda mempercayai data Anda (dalam hal ini percakapan pribadi) dengan pihak ketiga, Anda berharap bahwa data tersebut cukup terlindungi. Terlepas dari apakah itu layanan online, atau layanan yang menggunakan pekerja transkrip.

Tapi bagaimanapun, tanyakan pada diri sendiri dua pertanyaan: Apakah Anda percaya layanan ini dan seberapa halus percakapan Anda?

Jika Anda mempelajari layanan transkripsi, Anda harus selalu melakukan riset. Apakah perusahaan ini memiliki reputasi yang baik? Apakah dia telah memantapkan dirinya dengan baik? Apakah dia memiliki pelanggaran di masa lalu? Apakah ada kebijakan privasi yang secara jelas menjelaskan bagaimana data Anda akan diproses dan dilindungi?

Seperti disebutkan sebelumnya, layanan berbasis AI sering mengandalkan karyawan dan kontraktor pihak ketiga untuk melakukan pemeriksaan kualitas. Meskipun cek ini hanya sebagian kecil dari semua pesanan, selalu ada kemungkinan seseorang dapat mendengarkan rekaman Anda.

Tetapi dalam banyak kasus, ini tidak mengganggu transaksi. Namun, jika percakapan Anda sangat pribadi atau sensitif secara komersial, pertimbangkan untuk membuka editor teks dan menyalin sendiri.

All Articles