Cómo creamos la galería de arte de redes neuronales y por qué no damos imágenes para copiar

Hoy lanzamos una galería virtual donde todas las imágenes son creadas por una red neuronal. Su peculiaridad es que solo una persona puede tomar cada foto a tamaño completo. Casi como en una galería real.

En esta publicación, hablaré sobre cómo nació esta idea y cómo la implementamos usando dos redes neuronales, una de las cuales se usa en la búsqueda de Yandex.



Idea

Experimentamos mucho con las GAN e intentamos encontrar la idea de un proyecto hermoso y comprensible en el que pudiéramos mostrar nuestros logros.

Ya tenía un proyecto ganarts que lancé para mí y mis amigos. Era solo una página en la que se generaban infinitas imágenes en forma de estampado en una camiseta. Fueron generados por la red neuronal StyleGAN, entrenados en estilos de arte cuidadosamente seleccionados con wikiart.

Project Gif


Tomamos esta idea como base. Pero no quería hacer otro generador de imágenes del sitio. Y en el proceso de discusión, apareció el concepto de una galería de arte con varias salas temáticas, donde cada imagen no debería tener más de un propietario. Según nuestra idea, esto debería conectar la galería virtual con las galerías más familiares en las que cada imagen tiene un propietario específico. Al mismo tiempo, al poder generar millones de imágenes, limitamos específicamente su número para que cada usuario que logró captar una imagen sintiera su singularidad. Y también agregamos una restricción: no puede tomar más de una foto, por lo que es mucho más interesante elegir.

Implementación

Dado que la compañía Nvidia publicó el código para entrenar a la red neuronal StyleGAN, es bastante difícil sorprender a alguien con las imágenes generadas. Sus autores lograron hacer una arquitectura bastante universal, que muestra buenos resultados en diferentes datos. El avance también radica en el hecho de que el modelo podría ser entrenado a una resolución suficientemente alta (1024 × 1024) durante un tiempo aceptable y con una mejor calidad que la de los competidores.

Los entusiastas le "alimentaron" todo lo que tiene a mano. Si está interesado en mirar estos proyectos, aquí hay una lista de los más llamativos.

- Gente: thispersondoesnotexist.com
- Anime: www.thiswaifudoesnotexist.net
- Gatos: thesecatsdonotexist.com
- Personajes de Game of Thrones: nanonets.com/blog/stylegan-got
- Automóviles: twitter.com/SyntopiaDK/status/1094337819659644928
- Logotipos: twitter.com/matthewjarvisw/status/1110548997729452035
- Dibujos infantiles: twitter.com/roberttwomey/status/1239050186120282113
- Errores: twitter.com/karim_douieb/status/122992
/ twitter / karim_douieb / status / 122 comics Garfield: twitter.com/willynguen/status/1220382062554898433
- Fuentes: twitter.com/cyrildiagne/status/1095603397179396098
- Imágenes del microscopio: twitter.com/MichaelFriese10/status/1229453681516412928
- Pokemon: twitter.com/Michaeltriese/ 1210305621121064960

Pero el progreso no se detiene y, a finales de 2019, Nvidia lanzó la segunda versiónStyleGAN . Se puede leer una descripción detallada de todos los cambios en Habré . La principal mejora visible es deshacerse de los artefactos característicos similares a gotas al cambiar el método de normalización de las activaciones dentro de la red. Después de probar la nueva arquitectura en nuestro conjunto de datos inicial, también notamos un aumento en la variedad de pinturas generadas, que no pudieron sino alegrarnos. Nuestra hipótesis: esto se debió a un aumento en el número de parámetros en la segunda versión de la arquitectura, lo que nos permitió aprender más "modos" en la distribución de datos.

Otra buena ventaja de la segunda versión de StyleGAN fue el espacio latente "más suave". En pocas palabras, esto le permite hacer un flujo suave entre diferentes imágenes:


Para crear las pinturas, utilizamos la arquitectura StyleGAN2. Capacitamos a la red neuronal en obras pertenecientes a diferentes áreas de la pintura: desde el fauvismo y el cubismo hasta el minimalismo y el arte callejero. En total, hay alrededor de 40 mil pinturas en el conjunto de entrenamiento, sobre la base de las cuales se generan imágenes completamente nuevas.

Nuestra galería tiene cuatro salas temáticas: "Gente", "Naturaleza", "Ciudad" y "Humor". Para dividir las pinturas en pasillos, utilizamos la red neuronal, que se usa en Yandex.Pictures. Aprende sobre los clics de los usuarios al emitir imágenes en una solicitud de texto. Nuestro conjunto de datos de entrenamiento interno es lo suficientemente grande como para que esta red neuronal pueda descubrir incluso los patrones generados. Ella ayudó a seleccionar automáticamente las imágenes de acuerdo con nuestras solicitudes de texto de una gran cantidad de imágenes aleatorias. Por ejemplo, para una habitación llamada "Gente", se seleccionaron pinturas a pedido de "belleza", "baile redondo", "cita", "maestro", etc. Esto creó una sensación de salas temáticas, y las consultas iniciales sirvieron como los nombres de las pinturas.

Resultado



Hicimos una galeríade cuatro mil cuadros, cada uno de los cuales puede encontrar su dueño. Con esta galería virtual, queremos reducir aún más la distancia entre la creatividad de la red neuronal y el arte más tangible.

Creo que el proceso de selección de una imagen por parte del usuario también se puede llamar una manifestación de creatividad. Y espero que en el futuro haya muchas más oportunidades para la elección creativa.

All Articles