Wie wir die Galerie der Kunst neuronaler Netze geschaffen haben und warum wir keine Bilder zum Kopieren geben

Heute haben wir eine virtuelle Galerie gestartet, in der alle Bilder von einem neuronalen Netzwerk erstellt werden. Die Besonderheit ist, dass nur eine Person jedes Bild in voller Größe aufnehmen kann. Fast wie in einer echten Galerie.

In diesem Beitrag werde ich darüber sprechen, wie diese Idee geboren wurde und wie wir sie mithilfe von zwei neuronalen Netzen implementiert haben, von denen eines in der Yandex-Suche verwendet wird.



Idee

Wir experimentieren viel mit GANs und haben versucht, die Idee eines schönen und verständlichen Projekts zu finden, in dem wir unsere Erfolge zeigen können.

Ich hatte bereits ein Ganarts- Projekt , das ich für mich und meine Freunde gestartet habe. Es war nur eine Seite, auf der endlos Bilder in Form eines Drucks auf einem T-Shirt erzeugt wurden. Sie wurden vom neuronalen StyleGAN-Netzwerk generiert und mit Wikiart auf handverlesenen Kunststilen trainiert.

Projekt Gif


Wir haben diese Idee als Grundlage genommen. Aber ich wollte nicht nur einen weiteren Site-Generator für Bilder machen. Im Verlauf der Diskussion entstand das Konzept einer Kunstgalerie mit mehreren thematischen Räumen, in denen jedes Bild nicht mehr als einen Eigentümer haben sollte. Nach unserer Idee sollte dies die virtuelle Galerie mit den bekannteren Galerien verbinden, in denen jedes Bild einen bestimmten Eigentümer hat. Da wir in der Lage waren, Millionen von Bildern zu generieren, haben wir deren Anzahl speziell begrenzt, sodass jeder Benutzer, der es geschafft hat, ein Bild aufzunehmen, seine Einzigartigkeit spürte. Außerdem haben wir eine Einschränkung hinzugefügt: Sie können nicht mehr als ein Bild aufnehmen. Daher ist die Auswahl viel interessanter.

Implementierung

Da die Firma Nvidia den Code für das Training des neuronalen StyleGAN-Netzwerks veröffentlicht hat, ist es ziemlich schwierig, jemanden mit den generierten Bildern zu überraschen. Den Autoren ist es gelungen, eine ziemlich universelle Architektur zu erstellen, die gute Ergebnisse für verschiedene Daten zeigt. Der Durchbruch bestand auch darin, dass das Modell mit einer ausreichend hohen Auflösung (1024 × 1024) für eine akzeptable Zeit und mit besserer Qualität als die der Wettbewerber trainiert werden konnte.

Enthusiasten "fütterten" sie mit allem, was zur Hand ist. Wenn Sie sich solche Projekte ansehen möchten, finden Sie hier eine Liste der auffälligsten.

- Personen: thispersondoesnotexist.com
- Anime: www.thiswaifudoesnotexist.net
- Katzen: thesecatsdonotexist.com
- Game of Thrones-Charaktere: nanonets.com/blog/stylegan-got
- Autos: twitter.com/SyntopiaDK/status/1094337819659644928
- Logo: twitter.com/matthewjarvisw/status/1110548997729452035
- Kinderzeichnungen: twitter.com/roberttwomey/status/1239050186120282113
- Bugs: twitter.com/karim_douieb/status/1229903297378766854
- Comics Garfield: twitter.com/willynguen/status/1220382062554898433
- Schriftarten: twitter.com/cyrildiagne/status/1095603397179396098
- Bilder vom Mikroskop: twitter.com/MichaelFriese10/status/1229453681516412928
- Pokemon: twitter.com/MichaelFriese10/status/ 1210305621121064960 Der

Fortschritt steht jedoch nicht still, und Ende 2019 veröffentlichte Nvidia die zweite VersionStyleGAN . Eine detaillierte Übersicht aller Änderungen finden Sie auf Habré . Die wichtigste sichtbare Verbesserung besteht darin, charakteristische tröpfchenartige Artefakte zu beseitigen, indem die Methode zur Normalisierung der Aktivierungen innerhalb des Netzwerks geändert wird. Nachdem wir die neue Architektur in unserem ersten Datensatz ausprobiert hatten, stellten wir auch eine Zunahme der Vielfalt der generierten Gemälde fest, die sich nur freuen konnten. Unsere Hypothese: Dies war auf eine Zunahme der Anzahl der Parameter in der zweiten Version der Architektur zurückzuführen, die es uns ermöglichte, mehr „Modi“ bei der Verteilung von Daten zu lernen.

Ein weiterer schöner Bonus der zweiten Version von StyleGAN war der „glattere“ latente Raum. Einfach ausgedrückt, ermöglicht dies einen reibungslosen Fluss zwischen verschiedenen Bildern:


Für die Erstellung der Bilder haben wir die StyleGAN2-Architektur verwendet. Wir haben das neuronale Netzwerk auf Arbeiten trainiert, die zu verschiedenen Bereichen der Malerei gehören: vom Fauvismus und Kubismus bis zum Minimalismus und zur Straßenkunst. Insgesamt befinden sich rund 40.000 Gemälde im Trainingsset, auf deren Grundlage völlig neue Bilder entstehen.

Unsere Galerie hat vier thematische Säle: "Menschen", "Natur", "Stadt" und "Stimmung". Um die Bilder in Hallen zu unterteilen, haben wir das neuronale Netzwerk verwendet, das in Yandex.Pictures verwendet wird. Sie lernt bei Benutzerklicks, indem sie Bilder auf eine Textanfrage hin ausgibt. Unser interner Trainingsdatensatz ist groß genug, damit dieses neuronale Netzwerk selbst die generierten Muster herausfinden kann. Sie half bei der automatischen Auswahl von Bildern gemäß unseren Textanforderungen aus einer großen Anzahl zufälliger Bilder. Für einen Raum namens "Menschen" wurden beispielsweise Gemälde auf Wunsch von "Schönheit", "Rundtanz", "Datum", "Meister" usw. ausgewählt. Dies schuf ein Gefühl für thematische Räume, und die ersten Fragen dienten als Namen für die Gemälde.

Ergebnis



Wir haben eine Galerie erstelltvon viertausend Gemälden, von denen jedes seinen Besitzer finden kann. Mit dieser virtuellen Galerie möchten wir die Distanz zwischen der Kreativität des neuronalen Netzwerks und der greifbareren Kunst weiter verringern.

Ich glaube, dass der Prozess der Auswahl eines Bildes durch den Benutzer auch als Manifestation von Kreativität bezeichnet werden kann. Und ich hoffe, dass es in Zukunft viel mehr Möglichkeiten für kreative Entscheidungen gibt.

All Articles