Les chercheurs développent une approche pour réduire les biais dans les ensembles de données de vision par ordinateur

Une traduction de l'article a été préparée spécialement pour les étudiants du cours de vision par ordinateur .

14 février 2020
Princeton University, Department of Engineering.





:
, . ImageNet — 14 , .

ImageNet, qui comprend des images d'objets, de paysages et, en particulier, de personnes, sert de source de données de formation aux chercheurs qui créent des algorithmes d'apprentissage automatique qui classent les images ou reconnaissent des éléments individuels sur celles-ci. L'échelle sans précédent d'ImageNet a nécessité une collecte et une annotation automatisées d'images à l'aide du crowdsourcing. Alors que la catégorie d'images de personnes de la base de données était rarement utilisée par la communauté des chercheurs, l'équipe ImageNet a travaillé pour éliminer le biais et un certain nombre d'autres problèmes associés aux images de personnes, qui sont des conséquences involontaires de la conception d'ImageNet.

«Aujourd'hui, la vision par ordinateur fonctionne suffisamment bien pour être mise en œuvre partout dans divers contextes», a déclaré la co-auteure Olga Russakovskaya, professeure agrégée d'informatique à Princeton. «Cela signifie que le moment est venu de parler de la façon dont cela affecte le monde et de réfléchir aux questions de crédibilité.»

Dans un nouvel article, l'équipe ImageNet a systématiquement identifié les concepts non visuels et les catégories offensives, telles que les caractéristiques raciales et sexuelles, pour les catégories d'images humaines ImageNet et a suggéré de les supprimer de la base de données. Les chercheurs ont également développé un outil qui permet aux utilisateurs d'identifier et d'obtenir des ensembles d'images de personnes équilibrées par l'âge, le sexe et la couleur de la peau, afin de faciliter les algorithmes appropriés pour classer de manière plus fiable les visages des personnes et leurs actions sur les images. Les chercheurs ont présenté leurs travaux le 30 janvier lors d'une conférence sur la véracité, la fiabilité et la transparence de la Computing Technology Association à Barcelone, en Espagne.

"Il est très important d'attirer l'attention des laboratoires et des chercheurs possédant une expérience technique fondamentale", poursuit Russakovskaya. «Compte tenu du fait que nous devons collecter des données à une échelle colossale, et du fait que cela sera réalisé grâce au crowdsourcing (car il s'agit du pipeline le plus efficace et le plus éprouvé), la question se pose - comment pouvons-nous le faire afin d'assurer le plus grand fiabilité sans marcher sur un râteau familier? Cet article se concentre principalement sur les solutions de conception. »

Un groupe d'informaticiens à Princeton et Stanford a lancé ImageNet en 2009 en tant que ressource pour les chercheurs et les éducateurs. Fay-Fay Lee, professeur et diplômé de Princeton, maintenant professeur d'informatique à Stanford, a dirigé l'initiative. Pour encourager les chercheurs à créer de meilleurs algorithmes de vision par ordinateur à l'aide d'ImageNet, l'équipe a également lancé le défi de reconnaissance visuelle à grande échelle ImageNet. Le concours était principalement axé sur la reconnaissance d'objets à l'aide de 1000 catégories d'images, dont seulement trois représentaient des personnes.

Certains des problèmes de fiabilité dans ImageNet proviennent du pipeline utilisé pour créer la base de données. Ses catégories d'images sont extraites de WordNet, une ancienne base de données de mots anglais utilisés pour la recherche sur le traitement du langage naturel. Les créateurs d'ImageNet ont emprunté des noms à WordNet - dont certains, bien qu'ils soient des termes verbaux bien définis, sont mal traduits dans un dictionnaire visuel. Par exemple, les termes qui décrivent la religion ou l'origine géographique d'une personne ne peuvent extraire que les résultats de recherche d'images les plus importants, ce qui peut entraîner des algorithmes qui renforcent les stéréotypes.

Un projet artistique récent appelé ImageNet Roulette a attiré l'attention sur ces problèmes. Le projet, publié en septembre 2019 dans le cadre d'une exposition d'art dédiée aux systèmes de reconnaissance d'images, a utilisé les images de personnes d'ImageNet pour former un modèle d'intelligence artificielle qui catégorise les personnes avec des mots en fonction de l'image présentée. Les utilisateurs peuvent télécharger leur image et obtenir un tag basé sur ce modèle. Beaucoup de classifications étaient offensantes ou tout simplement infondées.

La principale innovation qui a permis aux créateurs d'ImageNet d'accumuler une si grande base de données d'images balisées était l'utilisation du crowdsourcing, en particulier la plateforme Amazon Mechanical Turk (MTurk), dans laquelle les employés étaient payés pour vérifier les images candidates. Cette approche, bien que révolutionnaire, était néanmoins imparfaite, ce qui a conduit à certaines catégories biaisées et inappropriées.

"Lorsque vous demandez aux gens de vérifier les images en sélectionnant parmi un large éventail de candidats, les gens ressentent la pression de choisir quelque chose, et ces images ont tendance à avoir des caractéristiques distinctives ou stéréotypées", explique l'auteur principal Kayu Young, diplômé en informatique .

Au cours de l'étude, Jan et ses collègues ont d'abord filtré les catégories de personnes potentiellement abusives ou sensibles d'ImageNet. Ils ont jugé offensant les catégories contenant des insultes ou des insultes raciales ou sexistes; les catégories sensibles comprenaient, par exemple, la classification des personnes en fonction de leur orientation sexuelle ou de leur religion. Pour annoter les catégories, ils ont recruté 12 étudiants diplômés de différents horizons, leur demandant de marquer la catégorie comme sensible s'ils ne sont pas sûrs. Ils ont donc exclu 1593 catégories - environ 54% des 2932 catégories de personnes sur ImageNet.

Ensuite, les chercheurs se sont tournés vers les employés de MTurk pour obtenir de l'aide, afin qu'ils évaluent les `` images '' des catégories acceptables restantes sur une échelle de 1 à 5. La sélection des catégories avec une cote d'images de 4 ou plus a conduit au fait que seulement 158 ​​catégories étaient classées comme acceptables et suffisamment figuratives. Même cet ensemble de catégories soigneusement filtré contenait plus de 133 000 images - un grand nombre d'exemples pour l'enseignement des algorithmes de vision par ordinateur.

Dans ces 158 catégories, les chercheurs ont étudié la représentation démographique des personnes dans les images pour évaluer le niveau de biais dans ImageNet et développer une approche pour créer des ensembles de données plus appropriés. Le contenu ImageNet provient principalement de moteurs de recherche ciblés sur les images tels que Flickr. Dans l'ensemble, les moteurs de recherche ont tendance à renvoyer des résultats qui représentent beaucoup plus les hommes, les personnes à la peau claire et les adultes âgés de 18 à 40 ans.

«Les gens ont constaté que les résultats de recherche d'images sont très biaisés en termes de distribution démographique, donc ImageNet a également une distribution biaisée», explique Young. "Dans cet article, nous avons essayé d'évaluer le niveau de biais, et proposons également une méthode qui équilibrerait la distribution."

Les chercheurs ont identifié et examiné trois attributs protégés par les lois anti-discrimination américaines: la couleur de la peau, le sexe et l'âge. Les travailleurs de MTurk ont ​​été invités à annoter chaque attribut de chaque personne sur l'image. Ils ont classé la couleur de la peau comme claire, moyenne ou foncée; et selon l'âge des enfants (moins de 18 ans), des adultes de 18 à 40 ans, des adultes de 40 à 65 ans ou des adultes de plus de 65 ans.
La classification par sexe incluait les hommes, les femmes et le sexe indéfini - un moyen d'inclure des personnes ayant des expressions de genre différentes, ainsi que des images annotées dans lesquelles le sexe ne peut pas être perçu par des signes visuels (comme les images de nombreux enfants ou plongeurs).

Une analyse des annotations a montré que, comme dans les résultats de recherche, le contenu d'ImageNet reflète un biais significatif. Les personnes noires, les femmes et les adultes de plus de 40 ans étaient sous-représentés dans la plupart des catégories.

Bien que le processus d'annotation comprenait un contrôle de la qualité et exigeait que les annotateurs parviennent à un consensus, en raison des préoccupations concernant les dommages potentiels des annotations incorrectes, les chercheurs ont choisi de ne pas émettre d'annotations démographiques pour les images individuelles. Au lieu de cela, ils ont développé un outil Web qui permet aux utilisateurs de récupérer un ensemble d'images qui sont démographiquement équilibrées de la manière spécifiée par l'utilisateur. Par exemple, une collection complète d'images dans la catégorie programmeur peut comprendre environ 90% d'hommes et 10% de femmes, tandis qu'aux États-Unis, environ 20% des programmeurs sont des femmes. Le chercheur peut utiliser le nouvel outil pour obtenir un ensemble d'images de programmeurs représentant 80% des hommes et 20% des femmes - ou même individuellement, selon les objectifs du chercheur.

"Nous ne voulons pas parler de la façon d'équilibrer les données démographiques, car ce n'est pas un problème très simple", explique Young. «La distribution peut être différente dans différentes parties du monde - par exemple, la distribution des couleurs de peau aux États-Unis est différente de la distribution dans les pays asiatiques. Par conséquent, nous laissons cette question à notre utilisateur et fournissons simplement un outil pour extraire un sous-ensemble équilibré d'images. "

L'équipe ImageNet travaille actuellement sur des mises à jour techniques de son équipement et de la base de données elle-même, en plus de mettre en œuvre le filtrage des visages et l'outil de rééquilibrage développé dans cette étude. ImageNet sera bientôt réédité avec ces mises à jour et une demande de rétroaction de la communauté des chercheurs en vision par ordinateur.


Ph.D. de Princeton Clint Kinami et professeur agrégé d'informatique, Jia Dang, co-auteur avec Young, Lee et Russakovskaya. L'étude a été soutenue par la National Science Foundation.


Source:

Matériaux fournis par le Département de génie de l'Université de Princeton . Original écrit par Molly Charlach. P Remarque: Le contenu peut être modifié par le style et la longueur.


Lien:

Kaiyu Yang, Klint Qinami, Li Fei-Fei, Jia Deng, Olga Russakovsky. Vers des ensembles de données plus équitables: filtrer et équilibrer la distribution du sous-arbre des personnes dans la hiérarchie ImageNet. Actes de la Conférence 2020 sur l'équité, la responsabilité et la transparence, 2020 DOI: 10.1145 / 3351095.3375709



En savoir plus sur le cours



All Articles