Les services de transcription en ligne sont-ils sécurisés et confidentiels?

Bonjour, Habr! Je vous présente la traduction de l'article «Les services de transcription en ligne sont-ils sûrs et privés?» auteur Matthew Hughes .

La transcription était autrefois un processus manuel et fastidieux. Les médecins, les journalistes et toute une foule de professionnels ont noté leurs notes et leurs conversations sur l'enregistreur, puis se sont assis devant l'ordinateur pour les taper au clavier.

En 2020, il existe un certain nombre de services que vous pouvez utiliser pour transformer votre enregistrement audio en texte. Cependant, la question demeure: sont-ils sûrs? Par exemple, vous pouvez télécharger des enregistrements de conversations sensibles et des messages vocaux privés.

Examinons ces services et comment vous pouvez protéger vos informations.

image
Illustration par Yangard
Licence Creative Commons
Cette image est sous licence Creative Commons Attribution-ShareAlike 4.0 Global .

Fonctionnement des services de transcription audio


Les services de transcription audio sont généralement divisés en trois catégories. Le premier est entièrement contrôlé par ordinateur et utilise les modèles d'IA et d'apprentissage automatique existants pour gérer la conversation. Le second est le plus cher, lorsque les gens achèvent tout le processus. Le troisième est une combinaison de traitement informatique et humain.

Vous connaissez très probablement la première catégorie. Les services de transcription vocale - tels que Google, Apple et Otter.ai - convertissent les ondes analogiques générées par votre voix en une représentation numérique. Ensuite, ils sont divisés en petits segments (parfois un millième de seconde) et comparés aux "phonèmes" ou éléments bien connus de la langue.

Ensuite, ces algorithmes essaient de les considérer dans le contexte d'autres phonèmes et de les passer à travers des modèles statistiques et IA, qui produisent finalement du texte. Étant donné que ces services de transcription sont entièrement contrôlés par ordinateur, ils sont généralement les moins chers. Cependant, la précision n'est pas toujours à la hauteur, en particulier lorsqu'il s'agit d'extraire du texte d'un environnement bruyant ou multi-utilisateur.

La transcription humaine comprend des plateformes spécifiques, telles que Rev , qui connectent les clients à un pool de transcripteurs pré-approuvés. Vous pouvez également embaucher quelqu'un parmi des employés indépendants, tels que Upwork ou Fiverr .

Enfin, il y a un mélange des deux. Pour accélérer le processus de transcription, certains sites permettent à l'IA d'effectuer un travail préliminaire, puis quelqu'un supprime la sortie et corrige les erreurs.

Les services de transcription se comportent mal


Ces dernières années, de nombreux services de transcription sont devenus l'objet de violations et de scandales.

Peut-être le plus ancien (et peut-être le plus flagrant) était SpinVox, qui dans les «noughties» offrait un service qui transforme la messagerie vocale en messages SMS. À cette époque, il était considéré comme une percée technologique. La société a rapidement attiré des critiques positives de la presse, des clients et un financement important.

Quel est le problème? Secrètement des clients, leurs messages vocaux ont été traités par des personnes travaillant dans des bureaux situés au Pakistan, à Maurice et en Afrique du Sud . Une entreprise d'initiés a affirmé que seulement 2% de la messagerie vocale était traitée par des machines, tandis que le reste était géré par environ 10 000 travailleurs salariés.

Lorsque le bureau pakistanais de SpinVox n'a pas été payé, ils ont commencé à envoyer des messages directement aux clients pour protester. En conséquence, la vérité est apparue et SpinVox a perdu la majeure partie de sa valeur, et le reste de la société a été vendu à Nuance , l'un des plus grands fournisseurs de services de reconnaissance vocale au monde.

Plus récemment, le journaliste de cybersécurité Brian Krebs a découvert une grave violation chez MEDantex , un fournisseur de services de transcription vocale au Kansas pour les prestataires de soins de santé. Il y a eu une fuite de données (dont certaines remontent à 2007) contenant des dossiers médicaux confidentiels. Leur contenu peut être téléchargé à partir d'un portail dangereux sous forme de fichiers Microsoft Word.

Même les services de transcription entièrement numériques ne sont pas sûrs. Vous commandez un tel service informatisé et l'entreprise peut l'utiliser pour contrôler la qualité des personnes travaillant dans le cadre du contrat.

En 2019, le site d'information belge VRT NWS a découvert que les sous-traitants de Google écoutaient les conversations entre les personnes et leurs assistants intelligents sur Google Home. L'un des sous-traitants a même fourni à VRT NWS un accès à des conversations, dont beaucoup étaient profondément sensibles et, dans certains cas, sexuellement intimes.

Amazon, Apple et Microsoft ont également fait appel à des sous-traitants. En d'autres termes, quelqu'un pourrait écouter les enregistrements vocaux de votre assistant virtuel .

Question réelle: les services de transcription en ligne sont-ils sûrs?


La réponse à cette question est un peu compliquée.

À l'heure actuelle, le marché est largement mûr pour les services de transcription, et les joueurs les plus manifestement mauvais ont été éliminés.

Cependant, lorsque vous confiez vos données (dans ce cas des conversations privées) à un tiers, vous vous attendez à ce qu'elles soient suffisamment protégées. Qu'il s'agisse d'un service en ligne ou d'un service utilisant des transcripteurs.

Mais en tout cas, posez-vous deux questions: faites-vous confiance à ce service et à quel point vos conversations sont-elles délicates?

Si vous étudiez un service de transcription, vous devriez toujours faire des recherches. Cette entreprise a-t-elle une bonne réputation? Est-elle bien établie? A-t-elle eu des violations dans le passé? Existe-t-il une politique de confidentialité qui précise clairement comment vos données seront traitées et protégées?

Comme mentionné précédemment, les services basés sur l'IA s'appuient souvent sur des employés et des sous-traitants tiers pour effectuer des contrôles de qualité. Bien que ces vérifications ne représentent qu'une fraction de toutes les commandes, il y a toujours une chance que quelqu'un puisse écouter vos enregistrements.

Mais dans de nombreux cas, cela n'interfère pas avec la transaction. Cependant, si votre conversation est profondément privée ou commercialement sensible, pensez à ouvrir un éditeur de texte et à vous transcrire.

All Articles