Pesquisadores estão desenvolvendo uma abordagem para reduzir o viés nos conjuntos de dados de visão computacional

Uma tradução do artigo foi preparada especificamente para os alunos do curso Visão Computacional .

14 de fevereiro de 2020
Universidade de Princeton, Departamento de Engenharia.





Resumo:
Para resolver os problemas de viés na inteligência artificial, os cientistas da computação desenvolveram métodos para obter conjuntos de dados mais confiáveis ​​contendo imagens de pessoas. Os pesquisadores estão oferecendo aprimoramentos ao ImageNet, um banco de dados com mais de 14 milhões de imagens, que desempenhou um papel fundamental no desenvolvimento da visão computacional na última década.

O ImageNet, que inclui imagens de objetos, paisagens e, em particular, pessoas, serve como fonte de dados de treinamento para pesquisadores que criam algoritmos de aprendizado de máquina que classificam imagens ou reconhecem elementos individuais neles. A escala sem precedentes da ImageNet exigia coleta e anotação automatizadas de imagens usando o crowdsourcing. Embora a categoria de imagens de pessoas do banco de dados raramente tenha sido usada pela comunidade de pesquisa, a equipe do ImageNet trabalhou para eliminar o viés e vários outros problemas associados às imagens de pessoas, que são conseqüências não intencionais do design do ImageNet.

"Hoje, a visão computacional funciona bem o suficiente para ser implementada em todos os lugares em uma variedade de contextos", disse a coautora Olga Russakovskaya, professora associada de ciência da computação em Princeton. "Isso significa que agora é a hora de conversar sobre como isso afeta o mundo e pensar sobre as questões de credibilidade".

Em um novo artigo, a equipe do ImageNet identificou sistematicamente conceitos não visuais e categorias ofensivas, como características raciais e sexuais, para categorias de imagens humanas do ImageNet e sugeriu removê-los do banco de dados. Os pesquisadores também desenvolveram uma ferramenta que permite aos usuários identificar e obter conjuntos de imagens de pessoas equilibradas por idade, sexo e cor da pele, a fim de facilitar algoritmos apropriados para classificar de maneira mais confiável o rosto das pessoas e suas ações nas imagens. Os pesquisadores apresentaram seu trabalho em 30 de janeiro em uma conferência sobre a veracidade, confiabilidade e transparência da Associação de Tecnologia da Computação em Barcelona, ​​Espanha.

"É muito importante trazer para a discussão a atenção de laboratórios e pesquisadores com experiência técnica fundamental", continua Russakovskaya. “Dado o fato de que precisamos coletar dados em uma escala colossal, e o fato de que isso será realizado por meio do crowdsourcing (porque é o pipeline mais eficiente e comprovado), surge a pergunta - como fazemos isso para garantir o melhor confiabilidade sem pisar em um ancinho familiar? Este artigo se concentra principalmente em soluções de design. ”

Um grupo de cientistas da computação em Princeton e Stanford lançou o ImageNet em 2009 como um recurso para pesquisadores e educadores. O professor e graduado em Princeton Fay-Fay Lee, atualmente professor de ciência da computação em Stanford, liderou a iniciativa. Para incentivar os pesquisadores a criar melhores algoritmos de visão computacional usando o ImageNet, a equipe também lançou o Desafio de reconhecimento visual do ImageNet em larga escala. A competição foi focada principalmente no reconhecimento de objetos usando 1000 categorias de imagens, das quais apenas três apresentavam pessoas.

Alguns dos problemas de confiabilidade do ImageNet decorrem do pipeline usado para criar o banco de dados. Suas categorias de imagens são extraídas do WordNet, um antigo banco de dados de palavras em inglês usado para pesquisas em processamento de linguagem natural. Os criadores do ImageNet pegaram nomes emprestados do WordNet - alguns dos quais, embora sejam termos verbais bem definidos, são mal traduzidos para um dicionário visual. Por exemplo, os termos que descrevem a religião ou a origem geográfica de uma pessoa podem extrair apenas os resultados de pesquisa de imagens mais importantes, o que pode resultar em algoritmos que reforçam estereótipos.

Um projeto de arte recente chamado ImageNet Roulette chamou a atenção para esses problemas. O projeto, lançado em setembro de 2019 como parte de uma exposição de arte dedicada a sistemas de reconhecimento de imagem, usou as imagens de pessoas da ImageNet para treinar um modelo de inteligência artificial que categorizou pessoas com palavras com base na imagem apresentada. Os usuários podem fazer upload de sua imagem e obter uma tag com base nesse modelo. Muitas das classificações eram ofensivas ou simplesmente infundadas.

A principal inovação que permitiu aos criadores do ImageNet acumular um banco de dados tão grande de imagens marcadas foi o uso de crowdsourcing, em particular a plataforma Amazon Mechanical Turk (MTurk), na qual os funcionários foram pagos para verificar as imagens candidatas. Apesar de revolucionária, essa abordagem era imperfeita, o que levou a algumas categorias tendenciosas e inadequadas.

"Quando você pede às pessoas que verifiquem imagens selecionando entre uma ampla variedade de candidatos, as pessoas sentem a pressão para escolher algo, e essas imagens tendem a ter características distintas ou estereotipadas", diz o principal autor Kayu Young, formado em ciência da computação .

No decorrer do estudo, Jan e seus colegas filtraram primeiro categorias potencialmente abusivas ou sensíveis de pessoas da ImageNet. Consideraram ofensivas as categorias que contenham palavrões ou insultos raciais ou de gênero; categorias sensíveis incluíam, por exemplo, classificação de pessoas com base em orientação sexual ou religião. Para anotar as categorias, eles recrutaram 12 estudantes de pós-graduação de diferentes esferas da vida, instruindo-os a marcar a categoria como sensível se não tiverem certeza. Portanto, eles excluíram 1593 categorias - cerca de 54% das 2932 categorias de pessoas no ImageNet.

Em seguida, os pesquisadores procuraram os funcionários do MTurk para obter ajuda, para que eles classificassem as "imagens" das categorias aceitáveis ​​restantes em uma escala de 1 a 5. A seleção de categorias com uma classificação de imagens igual ou superior a 4 levou ao fato de que apenas 158 categorias foram classificadas como aceitáveis ​​e suficientemente figurativas. Mesmo esse conjunto cuidadosamente filtrado de categorias continha mais de 133.000 imagens - um grande número de exemplos para o ensino de algoritmos de visão computacional.

Dentro dessas 158 categorias, os pesquisadores estudaram a representação demográfica de pessoas em imagens para avaliar o nível de viés no ImageNet e desenvolver uma abordagem para criar conjuntos de dados mais apropriados. O conteúdo do ImageNet vem principalmente de mecanismos de pesquisa segmentados por imagem, como o Flickr. Os mecanismos de pesquisa, em geral, tendem a retornar resultados que representam homens, pessoas de pele clara e adultos com idades entre 18 e 40 anos em uma extensão muito maior.

“As pessoas descobriram que os resultados da pesquisa de imagens são altamente tendenciosos em termos de distribuição demográfica; portanto, o ImageNet também possui uma distribuição tendenciosa”, diz Young. "Neste artigo, tentamos avaliar o nível de viés e também propusemos um método que equilibrasse a distribuição".

Os pesquisadores identificaram e revisaram três atributos protegidos pelas leis antidiscriminatórias dos EUA: cor da pele, sexo e idade. Os trabalhadores do MTurk foram solicitados a anotar cada atributo de cada pessoa na imagem. Eles classificaram a cor da pele como clara, média ou escura; e por idade quando crianças (menores de 18 anos), adultos entre 18 e 40 anos, adultos entre 40 e 65 anos ou adultos com mais de 65 anos.
A classificação de gênero incluiu homens, mulheres e gênero indefinido - uma maneira de incluir pessoas com diferentes expressões de gênero, bem como anotar imagens nas quais o gênero não pode ser percebido por sinais visuais (como imagens de muitas crianças ou mergulhadores).

Uma análise das anotações mostrou que, como nos resultados da pesquisa, o conteúdo do ImageNet reflete um viés significativo. Pessoas marcadas como negras, mulheres e adultos com mais de 40 anos estavam sub-representadas na maioria das categorias.

Embora o processo de anotação inclua controle de qualidade e exija que os anotadores cheguem a um consenso, devido a preocupações com os possíveis danos de anotações incorretas, os pesquisadores optaram por não emitir anotações demográficas para imagens individuais. Em vez disso, eles desenvolveram uma ferramenta baseada na Web que permite aos usuários recuperar um conjunto de imagens que são equilibradas demograficamente da maneira especificada pelo usuário. Por exemplo, uma coleção completa de imagens na categoria programador pode incluir cerca de 90% dos homens e 10% das mulheres, enquanto nos Estados Unidos cerca de 20% dos programadores são mulheres. O pesquisador pode usar a nova ferramenta para obter um conjunto de imagens de programadores representando 80% dos homens e 20% das mulheres - ou mesmo individualmente, dependendo dos objetivos do pesquisador.

"Não queremos falar sobre como equilibrar dados demográficos, porque não é um problema muito simples", diz Young. “A distribuição pode ser diferente em diferentes partes do mundo - por exemplo, a distribuição de cores de pele nos EUA é diferente da distribuição nos países asiáticos. Portanto, deixamos essa pergunta para o usuário e simplesmente fornecemos uma ferramenta para extrair um subconjunto equilibrado de imagens. "

A equipe do ImageNet está atualmente trabalhando em atualizações técnicas de seus equipamentos e do próprio banco de dados, além de implementar a filtragem de faces e a ferramenta de reequilíbrio desenvolvida neste estudo. O ImageNet será reeditado em breve com essas atualizações e um pedido de feedback da comunidade de pesquisadores de visão computacional.


Princeton Ph.D. Clint Kinami e professor associado de ciência da computação, Jia Dang, co-autor de Young, Lee e Russakovskaya. O estudo foi apoiado pela National Science Foundation.


Fonte:

Materiais fornecidos pelo Departamento de Engenharia da Universidade de Princeton . Original escrito por Molly Charlach. P Nota: O conteúdo pode ser modificado por estilo e comprimento.


Link:

Kaiyu Yang, Klint Qinami, Li Fei-Fei, Jia Deng, Olga Russakovsky. Em direção a conjuntos de dados mais justos: filtrando e equilibrando a distribuição da subárvore de pessoas na hierarquia do ImageNet. Anais da Conferência 2020 sobre Justiça, Responsabilidade e Transparência, 2020 DOI: 10.1145 / 3351095.3375709



Saiba mais sobre o curso



All Articles