Comment nous avons créé la galerie d'art des réseaux de neurones et pourquoi nous ne donnons pas d'images à copier

Aujourd'hui, nous avons lancé une galerie virtuelle où toutes les images sont créées par un réseau de neurones. Sa particularité est qu'une seule personne peut prendre chaque photo en taille réelle. Presque comme dans une vraie galerie.

Dans cet article, je parlerai de la naissance de cette idée et de la façon dont nous l'avons mise en œuvre à l'aide de deux réseaux de neurones, dont l'un est utilisé dans la recherche Yandex.



Idée

Nous expérimentons beaucoup avec les GAN et essayons de trouver l'idée d'un projet beau et compréhensible dans lequel nous pourrions montrer nos réalisations.

J'avais déjà un projet de ganarts que j'ai lancé pour moi et mes amis. C'était juste une page sur laquelle des images sous la forme d'une impression sur un t-shirt étaient générées à l'infini. Ils ont été générés par le réseau de neurones StyleGAN, formés sur des styles artistiques triés sur le volet avec wikiart.

Project Gif


Nous avons pris cette idée comme base. Mais je ne voulais pas faire juste un autre site-générateur d'images. Et au cours de la discussion, le concept d'une galerie d'art avec plusieurs salles thématiques est apparu, où chaque image ne devrait pas avoir plus d'un propriétaire. Selon notre idée, cela devrait relier la galerie virtuelle aux galeries les plus familières dans lesquelles chaque image a un propriétaire spécifique. Dans le même temps, étant en mesure de générer des millions d'images, nous avons spécifiquement limité leur nombre afin que chaque utilisateur qui a réussi à prendre une photo ait ressenti son caractère unique. Et nous avons également ajouté une restriction - vous ne pouvez pas prendre plus d'une photo - il est donc beaucoup plus intéressant de choisir.

la mise en oeuvre

Depuis que la société Nvidia a publié le code de formation du réseau neuronal StyleGAN, il est assez difficile de surprendre quelqu'un avec les images générées. Ses auteurs ont réussi à faire une architecture assez universelle, qui montre de bons résultats sur différentes données. La percée réside également dans le fait que le modèle a pu être entraîné à une résolution suffisamment élevée (1024 × 1024) pour un temps acceptable et avec une meilleure qualité que celle des concurrents.

Les adeptes lui ont «nourri» tout ce qui lui arrivait. Si vous êtes intéressé à regarder de tels projets, voici une liste des projets les plus marquants.

- Personnes: thispersondoesnotexist.com
- Anime: www.thiswaifudoesnotexist.net
- Chats: thesecatsdonotexist.com
- Personnages Game of Thrones: nanonets.com/blog/stylegan-got
- Voitures: twitter.com/SyntopiaDK/status/1094337819659644928
- Logos: twitter.com/matthewjarvisw/status/1110548997729452035
- Dessins d'enfants: twitter.com/roberttwomey/status/1239050186120282113
- Bugs: twitter.com/karim_douieb/status/1229903297378766854
- bandes dessinées Garfield: twitter.com/willynguen/status/1220382062554898433
- Polices: twitter.com/cyrildiagne/status/1095603397179396098
- Images du microscope: twitter.com/MichaelFriese10/status/1229453681516412928
- Pokémon: twitter.com/MichaelFriese10 1210305621121064960

Mais les progrès ne s'arrêtent pas, et fin 2019, Nvidia a sorti la deuxième versionStyleGAN . Un aperçu détaillé de tous les changements peut être lu sur Habré . La principale amélioration visible consiste à se débarrasser des artefacts caractéristiques ressemblant à des gouttelettes en modifiant la méthode de normalisation des activations au sein du réseau. Après avoir essayé la nouvelle architecture sur notre jeu de données initial, nous avons également remarqué une augmentation de la variété des peintures générées, qui ne pouvait que se réjouir. Notre hypothèse: cela était dû à une augmentation du nombre de paramètres dans la deuxième version de l'architecture, ce qui nous a permis d'apprendre plus de «modes» dans la distribution des données.

Un autre bonus intéressant de la deuxième version de StyleGAN était l'espace latent «plus lisse». Autrement dit, cela vous permet de faire couler en douceur entre différentes images:


Pour créer les peintures, nous avons utilisé l'architecture StyleGAN2. Nous avons formé le réseau neuronal sur des œuvres appartenant à différents domaines de la peinture: du fauvisme et du cubisme au minimalisme et au street art. Au total, il y a environ 40 000 peintures dans l'ensemble de formation, sur la base desquelles des images complètement nouvelles sont générées.

Notre galerie dispose de quatre salles thématiques: "People", "Nature", "City" et "Mood". Afin de diviser les peintures en salles, nous avons utilisé le réseau neuronal, qui est utilisé dans Yandex.Pictures. Elle apprend sur les clics des utilisateurs en émettant des images sur une demande de texte. Notre jeu de données d'entraînement interne est suffisamment grand pour que ce réseau de neurones puisse comprendre même les modèles générés. Elle a aidé à sélectionner automatiquement les images en fonction de nos demandes textuelles à partir d'un grand nombre d'images aléatoires. Par exemple, pour une salle appelée «People», des peintures ont été sélectionnées à la demande de «beauty», «round dance», «date», «master», etc. Cela a créé un sentiment de pièces thématiques et les requêtes initiales ont servi de noms aux peintures.

Résultat



Nous avons fait une galeriede quatre mille tableaux, chacun pouvant trouver son propriétaire. Avec cette galerie virtuelle, nous voulons réduire davantage la distance entre la créativité des réseaux de neurones et l'art plus tangible.

Je crois que le processus de sélection d'une image par l'utilisateur peut également être appelé une manifestation de créativité. Et j'espère qu'à l'avenir, il y aura beaucoup plus de possibilités de choix créatif.

All Articles