Warum maschinelles Lernen „synthetische“ Daten verwendet

Wir diskutieren die Meinungen der IT-Community und von Branchenexperten. Wir betrachten auch einige Projekte, in denen sie Werkzeuge zur Erzeugung „künstlicher“ Daten entwickeln. Einer von ihnen wurde von Einwanderern der US National Security Agency und von Google vertreten.


Fotos - Franki Chamaki - Unsplash

MO Problem


Einige MO-Algorithmen erfordern strukturierte Daten, um zu funktionieren. Um beispielsweise die Probleme der Bildverarbeitung zu lösen, werden sie vom ImageNet- Projekt bereitgestellt. In seiner Datenbank sind mehr als 14 Millionen Bilder in 22.000 Kategorien unterteilt. Die Arbeit mit einem so großen Set zahlt sich aus. Die Algorithmen, die es verwenden, sind in nur 3,75% der Fälle falsch bei der Bestimmung des Objekts in Fotografien. Zum Vergleich: Beim Menschen liegt diese Zahl über 5%.

Es ist jedoch unmöglich, Datensätze wie ImageNet für jede Aufgabe zu erstellen. Zumindest, weil die darin enthaltenen Datensätze manuell markiert (oder überprüft) werden. Gleichzeitig können reale Daten - zum Beispiel Bank- oder medizinische Daten - geschlossen und für alle Entwickler und Datenwissenschaftler unzugänglich sein. Aber selbst wenn solche Daten vorhanden sind, müssen sie vor der Verarbeitung anonymisiert werden.

Bei der Lösung dieser Schwierigkeiten helfen synthetische Daten. Sie sind künstlich und computergeneriert, sehen aber ähnlich echt aus.

Wer arbeitet in diesem Bereich


Viele Universitäten, IT-Unternehmen und Startups sind an Projekten in diesem Bereich beteiligt. Zum Beispiel schreibt Gretel Software, die einen künstlichen Datensatz basierend auf einem realen Datensatz generiert . Das Unternehmen wurde von einer Gruppe von Einwanderern aus Google, Amazon und der US National Security Agency (NSA) gegründet.

Zunächst analysiert ihre Plattform die verfügbaren Informationen. Als Beispiel verwendeten die Ingenieure Uber-Elektrorollerfahrten. Gretel kategorisiert und kennzeichnet sie und anonymisiert sie dann mithilfe unterschiedlicher Datenschutzmethoden . Die Ausgabe ist ein „vollständig künstlicher Datensatz“. Code ihrer Entscheidungsentwicklergepostet auf GitHub .

Ein ähnliches Projekt wurde durchgeführt an der Universität von Illinois in Urbana-Champaign. Ingenieure haben eine Python-Bibliothek geschrieben, mit der synthetische Daten für strukturierte CSV-, TSV- und teilweise strukturierte JSON-, Parkett- und Avro-Formate generiert werden können. Im ersten Fall verwendeten Experten generativ-wettbewerbsfähige Netzwerke und im zweiten Fall wiederkehrende neuronale Netzwerke .

Wie effektiv sind synthetische Daten?


Sie bieten Datenwissenschaftlern und Entwicklern die Möglichkeit, Modelle für Projekte in Bereichen zu trainieren, in denen Big Data noch nicht verfügbar ist. Laut zu Alex Watson, einer der Gründer von Gretel, in vielen Fällen gibt es genügend Werte , die wie echte Benutzer diejenigen aussehen einfach.

Gartner schätzt, dass bis 2022 40% der MO-Modelle auf synthetischen Datensätzen trainiert werden.

Der Leiter von Haze, einem Unternehmen für KI-Systeme, hat die Verbreitung von Technologien mit seiner „Flexibilität“ verknüpft . Künstliche Informationen lassen sich leichter ergänzen und modifizieren, um die Effektivität des trainierten Modells zu erhöhen.

Es gibt auch eine Reihe von Aufgaben im Zusammenhang mit Computer Vision, bei denen es schwierig ist, etwas anderes als einen synthetischen Datensatz zu verwenden - beispielsweise in der Robotik. Bei der Konstruktion von Industrierobotern und unbemannten Fahrzeugen wird das Verstärkungslernen verwendet . In diesem Fall lernt das künstliche Intelligenzsystem durch direkte Interaktion mit einer bestimmten Umgebung. Abhängig von der Reaktion dieser Umgebung passt der Roboter seine Aktionen an.

Aber die Drohne kann nicht nach draußen gehen und durch Versuch und Irrtum feststellen, dass Fußgänger nicht „niedergeschlagen“ werden können. Daher greifen Ingenieure auf synthetische Daten zurück - sie simulieren die Umgebung im virtuellen Raum. Zum Beispiel bietet Nvidia eine Lösung für solche Experimente . Es wurden auch Untersuchungen zum Maschinentraining mit der Grand Theft Auto V-Spiel-Engine durchgeführt .


Fotos - Andrea Ang - Unsplash

Trotz aller Vorteile künstlicher Daten haben sie ihre Nachteile. Sie werden berücksichtigtweniger genau - selbst wenn sie mit realen Daten generiert werden - und kann zu Modellen führen, die plausible, aber in der realen Welt nicht reproduzierbare Ergebnisse generieren. Einer der Bewohner von Hacker News in einem thematischen Thread merkt jedoch an, dass dies kein so großes Problem ist. Künstliche Daten können verwendet werden, um die Algorithmen eines intelligenten Systems zu testen.

Ein anderer Benutzer bei Hacker News sagt, dass ähnliche Technologien den Lernprozess von Modellen erschweren und die Entwicklungskosten erhöhen. Seine Worte wurden von einem Spezialisten der University of Illinois bestätigt - der Unterschied kann 50% erreichen.

In jedem Fall können synthetische Datensätze nicht als "Silberkugel" betrachtet werden. Dies ist nur ein Werkzeug, das bei der Lösung einer Reihe von Problemen helfen kann. Es ist jedoch möglich, dass sich dieses Spektrum im Laufe der Zeit schnell erweitert.

Worüber wir in unserem Unternehmensblog schreiben:

Ein Computer, der sich weigert zu sterben:
„Nehmen Sie Fußabdrücke und gehen Sie für das Wochenende“: So entfernen Sie sich von den beliebtesten Diensten
Welche Tools helfen GDPR dabei,
„Fast Anarchie“ zu erreichen: eine kurze Geschichte von Fidonet, einem Projekt, das „egal“ ist. "Zum Sieg über das Internet

All Articles