Die Forscher entwickeln einen Ansatz zur Verringerung der Verzerrung in Computer-Vision-Datensätzen

Eine Übersetzung des Artikels wurde speziell für Studenten des Computer Vision- Kurses erstellt .

14. Februar 2020
Princeton University, Department of Engineering.





Zusammenfassung:
Um die Probleme der Verzerrung in der künstlichen Intelligenz zu lösen, haben Informatiker Methoden entwickelt, um zuverlässigere Datensätze mit Bildern von Menschen zu erhalten. Forscher bieten Verbesserungen für ImageNet an, eine Datenbank mit mehr als 14 Millionen Bildern, die in den letzten zehn Jahren eine Schlüsselrolle bei der Entwicklung von Computer Vision gespielt hat.

ImageNet, das Bilder von Objekten, Landschaften und insbesondere von Menschen enthält, dient als Quelle für Trainingsdaten für Forscher, die Algorithmen für maschinelles Lernen erstellen, die Bilder klassifizieren oder einzelne Elemente darauf erkennen. Die beispiellose Skalierung von ImageNet erforderte eine automatisierte Bilderfassung und -anmerkung mithilfe von Crowdsourcing. Während die Kategorie der Bilder von Personen aus der Datenbank von der Forschungsgemeinschaft selten verwendet wurde, arbeitete das ImageNet-Team daran, die Verzerrung und eine Reihe anderer Probleme im Zusammenhang mit Bildern von Personen zu beseitigen, die unbeabsichtigte Folgen des ImageNet-Designs sind.

"Heute funktioniert Computer Vision gut genug, um überall in einer Vielzahl von Kontexten implementiert zu werden", sagte Co-Autorin Olga Russakovskaya, Associate Professor für Informatik in Princeton. "Dies bedeutet, dass es jetzt an der Zeit ist, darüber zu sprechen, wie sich dies auf die Welt auswirkt, und über die Fragen der Glaubwürdigkeit nachzudenken."

In einem neuen Artikel identifizierte das ImageNet-Team systematisch nicht-visuelle Konzepte und anstößige Kategorien wie rassistische und sexuelle Merkmale für die menschlichen Bildkategorien von ImageNet und schlug vor, sie aus der Datenbank zu entfernen. Die Forscher haben auch ein Tool entwickelt, mit dem Benutzer Bilder von Personen identifizieren und abrufen können, die nach Alter, Geschlecht und Hautfarbe ausgewogen sind, um geeignete Algorithmen zur zuverlässigeren Klassifizierung der Gesichter von Personen und ihrer Aktionen auf Bildern zu ermöglichen. Die Forscher präsentierten ihre Arbeit am 30. Januar auf einer Konferenz über die Richtigkeit, Zuverlässigkeit und Transparenz der Computing Technology Association in Barcelona, ​​Spanien.

„Es ist sehr wichtig, die Aufmerksamkeit von Laboratorien und Forschern mit grundlegender technischer Erfahrung auf die Diskussion zu lenken“, fährt Russakovskaya fort. „Angesichts der Tatsache, dass wir Daten in kolossalem Maßstab sammeln müssen und dass dies durch Crowdsourcing realisiert wird (weil es die effizienteste und bewährte Pipeline ist), stellt sich die Frage, wie wir dies tun, um das Beste sicherzustellen Zuverlässigkeit ohne auf einen vertrauten Rechen zu treten? Dieser Artikel konzentriert sich hauptsächlich auf Designlösungen. “

Eine Gruppe von Informatikern in Princeton und Stanford startete ImageNet 2009 als Ressource für Forscher und Pädagogen. Die Princeton-Absolventin und Lehrerin Fay-Fay Lee, heute Professorin für Informatik an der Stanford University, leitete die Initiative. Um die Forscher zu ermutigen, mithilfe von ImageNet bessere Computer-Vision-Algorithmen zu erstellen, startete das Team außerdem die ImageNet Large Scale Visual Recognition Challenge. Der Wettbewerb konzentrierte sich hauptsächlich auf die Erkennung von Objekten anhand von 1000 Bildkategorien, von denen nur drei Personen zeigten.

Einige der Zuverlässigkeitsprobleme in ImageNet sind auf die Pipeline zurückzuführen, die zum Erstellen der Datenbank verwendet wurde. Die Bildkategorien stammen aus WordNet, einer alten Datenbank englischer Wörter, die für die Erforschung der Verarbeitung natürlicher Sprache verwendet werden. ImageNet-Ersteller haben Substantive aus WordNet ausgeliehen - von denen einige, obwohl sie gut definierte verbale Begriffe sind, schlecht in ein visuelles Wörterbuch übersetzt werden. Beispielsweise können die Begriffe, die die Religion oder die geografische Herkunft einer Person beschreiben, nur die bekanntesten Bildsuchergebnisse extrahieren, was zu Algorithmen führen kann, die Stereotypen verstärken.

Ein kürzlich durchgeführtes Kunstprojekt namens ImageNet Roulette hat auf diese Probleme aufmerksam gemacht. Das Projekt, das im September 2019 im Rahmen einer Kunstausstellung für Bilderkennungssysteme veröffentlicht wurde, verwendete die Bilder von Menschen aus ImageNet, um ein Modell der künstlichen Intelligenz zu trainieren, das Menschen anhand des präsentierten Bildes mit Worten kategorisierte. Benutzer können ihr Bild hochladen und ein Tag erhalten, das auf diesem Modell basiert. Viele der Klassifikationen waren beleidigend oder einfach unbegründet.

Die Hauptinnovation, die es ImageNet-Erstellern ermöglichte, eine so große Datenbank mit getaggten Bildern zu sammeln, war die Verwendung von Crowdsourcing, insbesondere der MTurk-Plattform (Amazon Mechanical Turk), bei der Mitarbeiter für die Überprüfung von Kandidatenbildern bezahlt wurden. Obwohl dieser Ansatz revolutionär war, war er dennoch unvollkommen, was zu einigen voreingenommenen und unangemessenen Kategorien führte.

„Wenn Sie Leute bitten, Bilder zu überprüfen, indem Sie aus einer Vielzahl von Kandidaten auswählen, verspüren die Leute den Druck, etwas auszuwählen, und diese Bilder weisen tendenziell charakteristische oder stereotype Merkmale auf“, sagt der Hauptautor Kayu Young, ein Absolvent der Informatik .

Im Verlauf der Studie haben Jan und seine Kollegen zunächst potenziell missbräuchliche oder sensible Personengruppen aus ImageNet herausgefiltert. Sie betrachteten die Kategorien als beleidigend, die Obszönitäten oder rassistische oder geschlechtsspezifische Beleidigungen enthielten. Zu den sensiblen Kategorien gehörte beispielsweise die Klassifizierung von Personen nach sexueller Orientierung oder Religion. Um die Kategorien zu kommentieren, rekrutierten sie 12 Doktoranden aus verschiedenen Lebensbereichen und wiesen sie an, die Kategorie als sensibel zu markieren, wenn sie sich nicht sicher sind. Sie schlossen also 1593 Kategorien aus - etwa 54% der 2932 Kategorien von Personen in ImageNet.

Dann wandten sich die Forscher an MTurk-Mitarbeiter, um Hilfe zu erhalten, sodass sie die „Bilder“ der verbleibenden akzeptablen Kategorien auf einer Skala von 1 bis 5 bewerteten. Die Auswahl von Kategorien mit einer Bildbewertung von 4 oder höher führte dazu, dass nur 158 Kategorien als akzeptabel und ausreichend figurativ eingestuft wurden. Selbst diese sorgfältig gefilterten Kategorien enthielten mehr als 133.000 Bilder - eine Vielzahl von Beispielen für das Unterrichten von Computer-Vision-Algorithmen.

Innerhalb dieser 158 Kategorien untersuchten die Forscher die demografische Repräsentation von Personen in Bildern, um den Grad der Verzerrung in ImageNet zu bewerten und einen Ansatz zur Erstellung geeigneterer Datensätze zu entwickeln. ImageNet-Inhalte stammen hauptsächlich von bildbezogenen Suchmaschinen wie Flickr. Suchmaschinen liefern im Allgemeinen Ergebnisse, die deutlich mehr Männer, hellhäutige Menschen und Erwachsene zwischen 18 und 40 Jahren repräsentieren.

„Die Leute haben festgestellt, dass die Ergebnisse der Bildsuche in Bezug auf die demografische Verteilung stark voreingenommen sind, sodass ImageNet auch eine voreingenommene Verteilung aufweist“, sagt Young. "In diesem Artikel haben wir versucht, das Ausmaß der Verzerrung zu bewerten und eine Methode vorzuschlagen, die die Verteilung ausgleicht."

Forscher haben drei Attribute identifiziert und überprüft, die durch die US-Antidiskriminierungsgesetze geschützt sind: Hautfarbe, Geschlecht und Alter. MTurk-Mitarbeiter wurden gebeten, jedes Attribut jeder Person im Bild mit Anmerkungen zu versehen. Sie klassifizierten die Hautfarbe als hell, mittel oder dunkel; und nach Alter als Kinder (unter 18), Erwachsene zwischen 18 und 40 Jahren, Erwachsene zwischen 40 und 65 Jahren oder Erwachsene über 65 Jahre.
Die Geschlechtsklassifizierung umfasste Männer, Frauen und unbestimmtes Geschlecht - eine Möglichkeit, Menschen mit unterschiedlichen Geschlechtsausdrücken einzubeziehen sowie Bilder zu kommentieren, in denen das Geschlecht nicht durch visuelle Zeichen wahrgenommen werden kann (z. B. Bilder vieler Kinder oder Taucher).

Eine Analyse der Anmerkungen ergab, dass der ImageNet-Inhalt wie in den Suchergebnissen eine signifikante Verzerrung widerspiegelt. Als schwarz gekennzeichnete Personen, Frauen und Erwachsene über 40 waren in den meisten Kategorien unterrepräsentiert.

Obwohl der Annotationsprozess eine Qualitätskontrolle beinhaltete und die Annotatoren einen Konsens erzielen mussten, entschieden sich die Forscher aufgrund der Besorgnis über den möglichen Schaden falscher Annotationen dafür, keine demografischen Annotationen für einzelne Bilder herauszugeben. Stattdessen entwickelten sie ein webbasiertes Tool, mit dem Benutzer eine Reihe von Bildern abrufen können, die auf die vom Benutzer angegebene Weise demografisch ausgewogen sind. Beispielsweise kann eine vollständige Sammlung von Bildern in der Programmiererkategorie etwa 90% der Männer und 10% der Frauen umfassen, während in den Vereinigten Staaten etwa 20% der Programmierer Frauen sind. Der Forscher kann das neue Tool verwenden, um eine Reihe von Bildern von Programmierern zu erhalten, die 80% der Männer und 20% der Frauen repräsentieren - oder sogar einzeln, je nach den Zielen des Forschers.

"Wir möchten nicht darüber sprechen, wie Demografie ausgeglichen werden kann, da dies kein sehr einfaches Problem ist", sagt Young. „Die Verteilung kann in verschiedenen Teilen der Welt unterschiedlich sein. Beispielsweise unterscheidet sich die Verteilung der Hautfarben in den USA von der Verteilung in asiatischen Ländern. Daher überlassen wir diese Frage unserem Benutzer und stellen lediglich ein Tool zum Extrahieren einer ausgewogenen Teilmenge von Bildern bereit. "

Das ImageNet-Team arbeitet derzeit an technischen Aktualisierungen seiner Geräte und der Datenbank selbst sowie an der Implementierung der Gesichtsfilterung und des in dieser Studie entwickelten Tools zum Neuausgleich. ImageNet wird in Kürze mit diesen Updates und einer Bitte um Feedback von der Community der Computer Vision-Forscher neu aufgelegt.


Princeton Ph.D. Clint Kinami und Assistenzprofessor für Informatik, Jia Dang, gemeinsam mit Young, Lee und Russakovskaya verfasst Die Studie wurde von der National Science Foundation unterstützt.


Quelle:

Materialien vom Department of Engineering der Princeton University . Original geschrieben von Molly Charlach. P Hinweis: Der Inhalt kann nach Stil und Länge geändert werden.


Link:

Kaiyu Yang, Klint Qinami, Li Fei-Fei, Jia Deng und Olga Russakovsky. Auf dem Weg zu faireren Datensätzen: Filtern und Ausgleichen der Verteilung des Personenunterbaums in der ImageNet-Hierarchie. Berichte der Konferenz 2020 über Fairness, Rechenschaftspflicht und Transparenz, DOI 2020: 10.1145 / 3351095.3375709



Erfahren Sie mehr über den Kurs



All Articles