Pourquoi l'apprentissage automatique utilise des données «synthétiques»

Nous discutons des opinions de la communauté informatique et des experts de l'industrie. Nous considérons également quelques projets dans lesquels ils développent des outils pour générer des données «artificielles». L'un d'eux était représenté par des immigrants de la National Security Agency des États-Unis et de Google.


Photos - Franki Chamaki - Unsplash

Problème MO


Certains algorithmes MO nécessitent des données structurées pour fonctionner. Par exemple, pour résoudre les problèmes de vision industrielle , ils sont fournis par le projet ImageNet - dans sa base de données il y a plus de 14 millions d'images, réparties en 22 000 catégories. Travailler avec un ensemble à si grande échelle porte ses fruits. Les algorithmes qui l'utilisent se trompent dans la détermination de l'objet sur les photographies dans seulement 3,75% des cas. À titre de comparaison - chez l'homme, ce chiffre dépasse 5%.

Mais créer des ensembles de données comme ImageNet pour chaque tâche est impossible. Du moins parce que les enregistrements qu'ils contiennent sont marqués (ou vérifiés) manuellement. Dans le même temps, les données réelles - par exemple, bancaires ou médicales - peuvent être fermées et inaccessibles à tous les développeurs et scientifiques des données. Mais même si de telles données existent, elles doivent être anonymisées avant traitement.

Avec la solution de ces difficultés, les données synthétiques sont utiles. Ils sont artificiels et générés par ordinateur, mais ils semblent tout aussi réels.

Qui travaille dans ce domaine


De nombreuses universités, sociétés informatiques et startups sont impliquées dans des projets dans ce domaine. Par exemple, Gretel écrit un logiciel qui génère un ensemble de données artificiel basé sur un ensemble de données réel. L'entreprise a été fondée par un groupe d'immigrants de Google, d'Amazon et de la National Security Agency (NSA) des États-Unis.

Tout d'abord, leur plateforme analyse les informations disponibles. Les ingénieurs ont utilisé les balades en scooter électrique Uber comme exemple . Gretel les catégorise et les étiquette, puis les anonymise en utilisant des méthodes de confidentialité différentielles . La sortie est un «ensemble de données complètement artificiel». Code de leurs développeurs de décisionpublié sur GitHub .

Un projet similaire a été mis en œuvre à l'Université de l'Illinois à Urbana-Champaign. Les ingénieurs ont écrit une bibliothèque Python qui peut être utilisée pour générer des données synthétiques pour les formats CSV, TSV et JSON, Parquet et Avro partiellement structurés. Dans le premier cas, les experts ont utilisé des réseaux génératifs compétitifs et dans le second, des réseaux de neurones récurrents .

Quelle est l'efficacité des données synthétiques?


Ils offrent aux scientifiques et développeurs de données l'occasion de former des modèles de projets dans des domaines où le Big Data n'est pas encore disponible. Selon d' Alex Watson, l' un des fondateurs de Gretel, dans de nombreux cas , il y a assez de valeurs qui ressemblent à des vrais utilisateurs.

Gartner estime que d'ici 2022, 40% des modèles MO seront formés sur des ensembles de données synthétiques.

Le chef de Haze, une société de systèmes d'IA, a lié la diffusion de la technologie à sa «flexibilité». Les informations artificielles sont plus faciles à compléter et à modifier afin d'augmenter l'efficacité du modèle formé.

Il existe également un certain nombre de tâches liées à la vision par ordinateur, où il est difficile d'utiliser autre chose qu'un ensemble de données synthétiques - par exemple, en robotique. Lors de la conception de robots industriels et de véhicules sans pilote, l' apprentissage par renforcement est utilisé . Dans ce cas, le système d'intelligence artificielle apprend en interagissant directement avec un certain environnement. En fonction de la réponse de cet environnement, le robot ajuste ses actions.

Mais le drone ne peut pas sortir et déterminer par essais et erreurs que les piétons ne peuvent pas être «écrasés». Par conséquent, les ingénieurs ont recours à des données synthétiques - ils simulent l'environnement dans l'espace virtuel. Par exemple, Nvidia offre une solution pour de telles expériences . Des recherches ont également été menées sur la formation de la machine en utilisant le Grand Theft Auto moteur de jeu V .


Photos - Andrea Ang - Unsplash

Malgré tous les avantages des données artificielles, ils ont leurs inconvénients. Ils sont considérésmoins précis - même s'il est généré à partir de données réelles - et peut conduire à des modèles qui génèrent des résultats plausibles, mais non reproductibles dans le monde réel. Cependant, l'un des résidents de Hacker News dans un fil de discussion thématique note que ce n'est pas un si gros problème. Les données artificielles peuvent être utilisées pour tester les algorithmes d'un système intelligent.

Un autre utilisateur de Hacker News dit que des technologies similaires compliquent le processus d'apprentissage des modèles et augmentent le coût de développement. Ses paroles ont été confirmées par un spécialiste de l'Université de l'Illinois - la différence peut atteindre 50%.

Dans tous les cas, les ensembles de données synthétiques ne peuvent pas être considérés comme une «solution miracle». Ce n'est qu'un outil qui peut aider à résoudre un certain nombre de problèmes. Mais il est possible qu'avec le temps, ce spectre s'élargisse rapidement.

Ce que nous écrivons sur notre blog d'entreprise:

Un ordinateur qui refuse de mourir,
«Prenez des empreintes et partez pour le week-end»: comment vous retirer des services les plus populaires
Quels outils aideront à respecter le RGPD
«Presque anarchie»: une brève histoire de Fidonet, un projet qui «ne se soucie pas» "Vers la victoire sur Internet

All Articles