Los investigadores están desarrollando un enfoque para reducir el sesgo en los conjuntos de datos de visión por computadora

Se preparó una traducción del artículo específicamente para estudiantes del curso de Visión por computadora .

14 de febrero de 2020
Universidad de Princeton, Departamento de Ingeniería.





Resumen:
Para resolver los problemas de sesgo en la inteligencia artificial, los científicos informáticos han desarrollado métodos para obtener conjuntos de datos más confiables que contienen imágenes de personas. Los investigadores están ofreciendo mejoras a ImageNet, una base de datos de más de 14 millones de imágenes, que ha desempeñado un papel clave en el desarrollo de la visión por computadora durante la última década.

ImageNet, que incluye imágenes de objetos, paisajes y, en particular, personas, sirve como fuente de datos de capacitación para investigadores que crean algoritmos de aprendizaje automático que clasifican imágenes o reconocen elementos individuales en ellos. La escala sin precedentes de ImageNet requería la recopilación y anotación automatizadas de imágenes mediante crowdsourcing. Si bien la comunidad de investigación rara vez usaba la categoría de imágenes de personas de la base de datos, el equipo de ImageNet trabajó para eliminar el sesgo y una serie de otros problemas asociados con las imágenes de personas que son consecuencias involuntarias del diseño de ImageNet.

"Hoy en día, la visión por computadora funciona lo suficientemente bien como para implementarse en todas partes en una variedad de contextos", dijo la coautora Olga Russakovskaya, profesora asociada de ciencias de la computación en Princeton. "Esto significa que ahora es el momento de hablar sobre cómo afecta al mundo y pensar sobre los problemas de credibilidad".

En un nuevo artículo, el equipo de ImageNet identificó sistemáticamente conceptos no visuales y categorías ofensivas, como las características raciales y sexuales, para las categorías de imágenes humanas de ImageNet y sugirió eliminarlas de la base de datos. Los investigadores también han desarrollado una herramienta que permite a los usuarios identificar y obtener conjuntos de imágenes de personas que están equilibradas por edad, género y color de piel, a fin de facilitar algoritmos apropiados para clasificar de manera más confiable los rostros de las personas y sus acciones en las imágenes. Los investigadores presentaron su trabajo el 30 de enero en una conferencia sobre la veracidad, fiabilidad y transparencia de la Asociación de Tecnología Informática en Barcelona, ​​España.

"Es muy importante llevar a la discusión la atención de laboratorios e investigadores con experiencia técnica fundamental", continúa Russakovskaya. "Dado el hecho de que necesitamos recopilar datos a una escala colosal, y el hecho de que esto se logrará a través del crowdsourcing (porque es la tubería más eficiente y bien probada), surge la pregunta: ¿cómo hacemos esto para garantizar la mayor fiabilidad sin pisar un rastrillo familiar? Este artículo se centra principalmente en soluciones de diseño ".

Un grupo de informáticos en Princeton y Stanford lanzó ImageNet en 2009 como un recurso para investigadores y educadores. El graduado y profesor de Princeton, Fay-Fay Lee, ahora profesor de informática en Stanford, dirigió la iniciativa. Para alentar a los investigadores a crear mejores algoritmos de visión por computadora usando ImageNet, el equipo también lanzó el Desafío de reconocimiento visual a gran escala ImageNet. La competencia se centró principalmente en el reconocimiento de objetos utilizando 1000 categorías de imágenes, de las cuales solo tres incluían personas.

Algunos de los problemas de confiabilidad en ImageNet provienen de la tubería utilizada para crear la base de datos. Sus categorías de imágenes están tomadas de WordNet, una antigua base de datos de palabras en inglés utilizadas para la investigación del procesamiento del lenguaje natural. Los creadores de ImageNet tomaron prestados sustantivos de WordNet, algunos de los cuales, aunque son términos verbales bien definidos, están mal traducidos a un diccionario visual. Por ejemplo, los términos que describen la religión o el origen geográfico de una persona solo pueden extraer los resultados de búsqueda de imágenes más destacados, lo que puede generar algoritmos que refuerzan los estereotipos.

Un proyecto de arte reciente llamado ImageNet Roulette ha llamado la atención sobre estos temas. El proyecto, lanzado en septiembre de 2019 como parte de una exposición de arte dedicada a los sistemas de reconocimiento de imágenes, utilizó las imágenes de personas de ImageNet para entrenar un modelo de inteligencia artificial que clasificaba a las personas con palabras basadas en la imagen presentada. Los usuarios pueden subir su imagen y obtener una etiqueta basada en este modelo. Muchas de las clasificaciones eran ofensivas o simplemente infundadas.

La principal innovación que permitió a los creadores de ImageNet acumular una base de datos tan grande de imágenes etiquetadas fue el uso de crowdsourcing, en particular la plataforma Amazon Mechanical Turk (MTurk), en la que se pagaba a los empleados para verificar las imágenes candidatas. Este enfoque, aunque fue revolucionario, fue sin embargo imperfecto, lo que condujo a algunas categorías sesgadas e inapropiadas.

"Cuando le pides a la gente que verifique las imágenes seleccionando entre una amplia gama de candidatos, las personas sienten la presión de elegir algo, y estas imágenes tienden a tener características distintivas o estereotipadas", dice el autor principal Kayu Young, un graduado en informática .

En el curso del estudio, Jan y sus colegas primero filtraron categorías de personas potencialmente abusivas o sensibles de ImageNet. Consideraron ofensivo las categorías que contenían blasfemias o insultos raciales o de género; Las categorías sensibles incluían, por ejemplo, la clasificación de personas según la orientación sexual o la religión. Para anotar las categorías, reclutaron a 12 estudiantes de posgrado de diferentes ámbitos de la vida, ordenándoles que marcaran la categoría como sensible si no están seguros. Entonces excluyeron 1593 categorías, aproximadamente el 54% de las 2932 categorías de personas en ImageNet.

Luego, los investigadores recurrieron a los empleados de MTurk en busca de ayuda, de modo que calificaron las "imágenes" de las categorías aceptables restantes en una escala de 1 a 5. La selección de categorías con una calificación de imágenes de 4 o más llevó al hecho de que solo 158 categorías se clasificaron como aceptables y suficientemente figurativas. Incluso este conjunto de categorías cuidadosamente filtrado contenía más de 133,000 imágenes, una gran cantidad de ejemplos para enseñar algoritmos de visión por computadora.

Dentro de estas 158 categorías, los investigadores estudiaron la representación demográfica de las personas en imágenes para evaluar el nivel de sesgo en ImageNet y desarrollar un enfoque para crear conjuntos de datos más apropiados. El contenido de ImageNet proviene principalmente de motores de búsqueda orientados a imágenes como Flickr. Los motores de búsqueda, en general, tienden a arrojar resultados que representan a hombres, personas de piel clara y adultos de 18 a 40 años en mayor medida.

"La gente ha descubierto que los resultados de búsqueda de imágenes están muy sesgados en términos de distribución demográfica, por lo que ImageNet también tiene una distribución sesgada", dice Young. "En este artículo, intentamos evaluar el nivel de sesgo y también proponer un método que equilibrara la distribución".

Los investigadores han identificado y revisado tres atributos que están protegidos por las leyes antidiscriminatorias de los Estados Unidos: color de piel, género y edad. Se pidió a los trabajadores de MTurk que anotaran cada atributo de cada persona en la imagen. Clasificaron el color de la piel como claro, medio u oscuro; y por edad como niños (menores de 18 años), adultos de 18 a 40 años, adultos de 40 a 65 años o adultos mayores de 65 años.
La clasificación de género incluía hombres, mujeres y género indefinido, una forma de incluir personas con diferentes expresiones de género, así como anotar imágenes en las que el género no puede ser percibido por signos visuales (como imágenes de muchos niños o buzos).

Un análisis de las anotaciones mostró que, como en los resultados de búsqueda, el contenido de ImageNet refleja un sesgo significativo. Las personas marcadas como negras, las mujeres y los adultos mayores de 40 años estaban subrepresentados en la mayoría de las categorías.

Aunque el proceso de anotación incluía control de calidad y requería que los anotadores llegaran a un consenso, debido a las preocupaciones sobre el daño potencial de las anotaciones incorrectas, los investigadores decidieron no emitir anotaciones demográficas para imágenes individuales. En cambio, desarrollaron una herramienta basada en la web que permite a los usuarios recuperar un conjunto de imágenes que están equilibradas demográficamente de la manera especificada por el usuario. Por ejemplo, una colección completa de imágenes en la categoría de programador puede incluir aproximadamente el 90% de los hombres y el 10% de las mujeres, mientras que en los Estados Unidos aproximadamente el 20% de los programadores son mujeres. El investigador puede usar la nueva herramienta para obtener un conjunto de imágenes de programadores que representan el 80% de los hombres y el 20% de las mujeres, o incluso de forma individual, según los objetivos del investigador.

"No queremos hablar sobre cómo equilibrar la demografía, porque no es un problema muy simple", dice Young. “La distribución puede ser diferente en diferentes partes del mundo; por ejemplo, la distribución de los colores de la piel en los EE. UU. Es diferente de la distribución en los países asiáticos. Por lo tanto, dejamos esta pregunta a nuestro usuario y simplemente proporcionamos una herramienta para extraer un subconjunto equilibrado de imágenes ".

El equipo de ImageNet está trabajando actualmente en actualizaciones técnicas de su equipo y la base de datos en sí, además de implementar el filtrado facial y la herramienta de reequilibrio desarrollada en este estudio. ImageNet pronto volverá a emitirse con estas actualizaciones y una solicitud de comentarios de la comunidad de investigadores de visión artificial.


Princeton Ph.D. Clint Kinami y profesor asociado de ciencias de la computación, Jia Dang, coautor con Young, Lee y Russakovskaya. El estudio fue apoyado por la National Science Foundation.


Fuente:

Materiales proporcionados por el Departamento de Ingeniería, Universidad de Princeton . Original escrito por Molly Charlach. P Nota: El contenido puede modificarse por estilo y longitud.


Enlace:

Kaiyu Yang, Klint Qinami, Li Fei-Fei, Jia Deng, Olga Russakovsky. Hacia conjuntos de datos más justos: filtrado y equilibrio de la distribución del subárbol de personas en la jerarquía de ImageNet. Actas de la Conferencia 2020 sobre equidad, responsabilidad y transparencia, 2020 DOI: 10.1145 / 3351095.3375709



Aprende más sobre el curso



All Articles