Cuando escucho las palabras "restauró la red neuronal", subo para verificar las copias de seguridad

Además de ser un especialista en TI, también soy un historiador de la tecnología, y esto es lo que determina mi reacción a las noticias sobre los últimos logros en el campo de las tecnologías digitales. Hace un mes, decidí comenzar a escribir un libro para personas que están lejos de TI y que están cerca de la investigación y las fuentes históricas (el "Estudio de fuentes digitales - problemas específicos " está escrito en los sitios del borrador del libro), en el que les diré lo que el desarrollo de las tecnologías digitales ha convertido para ellos .

Un par de días después de eso, la noticia apareció en Internet: "La llegada del tren" se mejoró con la ayuda de redes neuronales: la película de 1896 ahora se puede ver en 4K y 60 cuadros por segundo ", y esta es una buena razón para contarle a la gente de TI lo mismo.

No tengo la película original "Llegada del tren", así que utilicé fotografías modernas (reducidas o descoloridas) + fotos de la década de 1930 (presumiblemente) como muestras de prueba

Cuando escucho las palabras "restauró la red neuronal", subo para verificar las copias de seguridad

0. ¿Cuál es el problema?


El problema que se discutirá surge debido a cómo funcionan exactamente los historiadores reales y las redes neuronales.

Según el lego, el historiador ideal se sienta exclusivamente en los archivos y trabaja con documentos oficiales y bien conservados. En realidad, los historiadores trabajan con las fuentes que tienen y en la forma en que llegaron a ellos.

En realidad, además de los documentos oficiales en los archivos estatales, las fotos personales, cartas, memorias, etc. pueden servir como fuentes. Desafortunadamente, los historiadores a menudo trabajan no con documentos fuente, sino con varias copias.

¿Alguna vez has escuchado la frase de que varios íconos y textos "han llegado a nosotros en las listas"? En este caso, la palabra "lista" no significa un catálogo en el que se menciona algún trabajo, sino una copia de este trabajo en sí. Este término proviene de la palabra "cancelar".

Muchos de los textos, fotografías y películas nos han llegado en forma de copias, y no hay garantía de que la única copia de la película "Seventeen Moments of Spring" que ha llegado a los historiadores del futuro no sea solo una versión pintada y recortada. Porque los caminos de la fuente histórica son inescrutables.

Por otro lado, hay muchas noticias de que la red neuronal ha restaurado o mejorado algo. Parece una especie de magia y muchos tienen la sensación de que algún tipo de inteligencia artificial realmente puede restaurar algo.

De hecho, sobre cualquier restauración de color o detalles en imágenes pequeñas no se habla y no se puede ir. El programa simplemente agrega elementos a la foto o video que sus algoritmos determinan según corresponda.

Desafortunadamente, en realidad es imposible restaurar la imagen perdida, porque la operación de blanqueo es irreversible, y si una fotografía no tiene una parte de la imagen, entonces no se puede restaurar solo sobre la base de la misma fotografía.

Por lo tanto, las redes neuronales hacen exactamente lo mismo que hacen las personas en tales casos: fantasean con base en su experiencia.

Y ahora mostraré lo que se obtiene como resultado de estas fantasías.

1. Comparación de diferentes servicios de coloración.


Aunque colorear fotos y películas no es un fenómeno completamente nuevo, ahora está disponible para todos los que tienen acceso a Internet, y muchas personas aprovechan esta nueva oportunidad.

Ya vivimos en un mundo donde hay muchas fotografías pintadas de soldados de la Gran Guerra Patria, los interiores del Titanic, la familia real y muchos otros.

Puede parecerle a una persona no iniciada que se trata de restaurar el color original, y que una fotografía coloreada nos muestra cómo se veían realmente las personas y los objetos de hace cien años. Con base en estas fotos, alguien puede comenzar a sacar conclusiones sobre la vida de las personas en el pasado, analizar varios eventos y situaciones.
Y aunque entiendo la imposibilidad de restaurar el color real de una fotografía en blanco y negro, como investigador debo verificar y asegurarme de que tengo razón.

Para probar esta idea, tomé dos fotografías modernas en color, las blanqueé en un editor gráfico y las conduje a través de servicios de colorización en línea.

1.1 Colorización del automóvil Ford A Phaeton


En este caso, utilicé una fotografía que tomé a fines de enero de 2020 en el aeropuerto Domodedovo de Moscú. No sé cómo el color de estos autos coincide con su color original, pero eso no importa. En este experimento, verificamos con qué precisión se restaurará el color de la foto blanqueada.

Coloración del automóvil Ford A Phaeton

Realicé este experimento con fotografías de diferentes automóviles y el resultado no ha cambiado: todos los servicios pintan autos reales de manera diferente, pero nadie pinta correctamente.

Al mismo tiempo, personalmente prefiero no la versión original, sino el resultado de color de deepai.org : un color de cuerpo tranquilo con lados de techo azules. (Pero en esta versiónel color original se muestra en franjas numeradas 2 y 7, pero me gusta la tira 5 coloreada por algoritmia.com , donde la parte es de color amarillo y la parte es roja).

El problema con el color del automóvil se explica de manera muy simple: datos incrustados en cada red neuronal. Y de la misma manera que con la coloración manual, la coloración automática indica exactamente en base a qué experiencia se realizó la coloración.

Es decir, no se trata de ninguna restauración del color original del discurso y no se puede ir.

Por supuesto, habrá personas que dirán que necesita cargar aún más fotos a la red neuronal y luego todo estará bien, pero esto contradice el principio mismo de las redes neuronales: simplemente promedian los datos cargados en ellas y no pueden ir más allá de la "experiencia" obtenida de esta manera.

1.2


El siguiente experimento fue con una fotografía que muestra la arquitectura y muchas personas con ropa de colores. La foto original se recortó, se descoloró y se cargó en los servicios de coloración.

Coloración de la fuente en VDNH

Debido a la gran cantidad de objetos a pintar, el resultado no es tan sencillo como era el caso del Ford A Phaeton.

Sí, ninguno de los servicios pintó las estatuas en color dorado, tulipanes rojos en la parte inferior de la imagen y camisetas de color verde brillante y azul brillante. Sin embargo, todos los servicios se las arreglaron brillantemente con la pintura de una camiseta blanca de un hombre sentado en el parapeto de una fuente y una blusa blanca de una mujer caminando de derecha a izquierda con un bolso de mano a su lado.

Por lo tanto, nuevamente tenemos un resultado completamente predecible: los servicios de coloración no pueden restaurar el color real.

Pero el beneficio de este ejemplo es no repetir el hecho obvio nuevamente. Por supuesto, repetir los hechos obvios es necesario y muy correcto, pero hay un punto más.

Bono de 9may.mail.ru


Además de colorear, el servicio 9may.mail.ru realiza la operación "solución de problemas". Si compara solo una foto coloreada y una foto coloreada con la que se eliminaron los defectos, encontrará una característica muy interesante.

Bono de 9may.mail.ru

Esta ilustración muestra un fragmento ampliado del borde derecho de la foto con una fuente. Como puede ver claramente, durante la "eliminación de defectos", se eliminó el elemento escultórico (no me atreveré a decir su nombre :))

Se observó una "eliminación de defectos" similar en otras fotografías coloreadas por 9may.mail.ru, pero allí Estas no fueron eliminaciones tan grandes.

Por lo tanto, la fuente histórica no solo fue pintada incorrectamente, sino que también tenía “rasguños” que destruyeron parte de la imagen (lo que nuevamente nos lleva a la cuestión deDesgaste y desgaste digital ").

Este ejemplo le permite pasar sin problemas a la siguiente parte de la historia sobre el impacto de la" mejora "de las fotografías por redes neuronales en fuentes históricas.

2. Aumento del tamaño de la foto.


Además de colorear, la ampliación de fotografías existió en la era pre-digital.

El resultado para ambos casos es el mismo, comenzamos a ver el elemento mínimo de la foto. En la fotografía analógica era "grano", ahora su lugar fue ocupado por el "píxel", pero tienen una esencia: es el elemento mínimo indivisible (realmente quiero decir "atómico", pero a pesar de su nombre, el átomo no es indivisible :))

Si miramos en un tablero de ajedrez en un dispositivo óptico de aumento (telescopio, binoculares, etc.), entonces podemos "acercarlo" y ver detalles que antes no eran visibles.

Pero si fotografiamos un tablero de ajedrez para que quepa en un grano / píxel, entonces no hay forma de "acercar" y distinguir cada celda individualmente. Al ampliar dicha imagen, veremos una gran mancha de un color donde debería estar el tablero de ajedrez.

Exactamente la misma situación sucederá si cambiamos el tamaño de píxel de una fotografía digital de un tablero de ajedrez: la información sobre las celdas en el tablero de ajedrez se perderá, y no hay forma de restaurarla solo en base a la misma fotografía.

En general, me siento incómodo al decir esta idea común, pero, como muestra la práctica, la idea de la irreversibilidad de reducir la fotografía digital no es obvia para todos.

De vez en cuando, aparecen noticias de que alguna red neuronal ha aumentado y mejorado la foto anterior, por lo que ahora podemos ver los detalles que antes no podíamos ver.

Al igual que en el caso de la coloración, traté de aplicar servicios en línea a fotos reales.

2.1 Molino desconocido de la década de 1930


Una vez, el sábado por la noche, un colega me envió un enlace a una fotografía en la página del Archivo Estatal de Perm en Vkontakte . 1024 por 705 píxeles que han sufrido compresión JPEG varias veces, con etiquetas poco legibles.

Molino desconocido de la década de 1930

Lo pasamos muy bien, resolvimos este enigma y el lunes confirmó nuestros hallazgos yendo al archivo y estudiando la fotografía original.

Esto me permitió realizar un experimento y ver de qué son capaces las redes neuronales.

Molino desconocido de la década de 1930: comparación

Como resultado, la opción más fácil de leer era "simple aumento" (en general, leí esta inscripción simplemente ampliándola en la pantalla del teléfono inteligente).

biz.mail.ru hizo que la etiqueta fuera ilegible a gran escala, pero la línea "Acme Road Mach Co" sigue siendo parcialmente legible a cierta escala.

Los solicitantes restantes hicieron tanto ruido que la inscripción dejó de leerse. Aunque permaneció parcialmente reconocible.

Es decir, los servicios para "mejorar las fotos" hicieron exactamente lo contrario: empeoraron la foto real.

Y si dice que mejorar las inscripciones en fotografías antiguas no es una tarea para tales servicios, entonces estaré de acuerdo, porque este es precisamente el problema. El hecho es que estos servicios existen, se posicionan como servicios de "restauración" y "restauración", sin explicar a los usuarios los riesgos y las consecuencias asociadas con la tecnología utilizada. Las personas que estudian la historia de su familia o su localidad pueden "mejorar" sus fotografías digitales.

Y tengo grandes dudas de que todos almacenarán cuidadosamente la foto original no mejorada.

Tengo un ejemplo más relacionado con el archivo Perm y la atribución de fotografías, pero será en la próxima actualización de Digital Source Studies , y ahora prefiero volver a las máquinas que fotografié en Domodedovo.

2.2 Capucha Lorraine-Dietrich B36


Para verificar las posibilidades de ampliar fotos, tomé una de mis fotos, reduje el tamaño de píxel de 4000 a 3000 a 1024 a 768, y conduje a través de los mismos servicios que en el caso de la foto del molino del ejemplo anterior.

Lorena-Dietrich B36

Y si un espectador ordinario de esas imágenes "mejoradas" realmente no las mira, entonces estaba interesado en pequeños detalles.

Campana Lorraine-Dietrich B36

El resultado fue predecible.

El logotipo en la parrilla del radiador es reconocible, pero distorsionado: las líneas se han vuelto uniformes.

Los orificios de ventilación laterales se suavizan y no se distinguen del resplandor del capó.

Como era de esperar, muchos pequeños detalles desaparecieron, pero este ejemplo no está aquí para confirmar una vez más la idea de la irreversibilidad de perder información de una fotografía digital al tiempo que reduce su tamaño de píxel.

Si mirabas cuidadosamente las fotos, ya veías signos de que la red neuronal había funcionado aquí.

Bono de letsenhance.io


Este es el momento de recordar cómo funcionan las redes neuronales: selecciona las opciones adecuadas de su propia "experiencia" obtenida como resultado del entrenamiento.

Y ahora mostraré exactamente cómo letsenhance.io aumentó 4 veces la foto, que anteriormente reduje 4 veces.

A la izquierda, verá la foto original antes de la reducción, a la derecha, obtenida después de la ampliación. (No se muestra una foto reducida intermedia)

Bono de letsenhance.io

Sí, es cierto, esta es la cara del mono.

Y si ves en este un caso divertido, el problema de entrenar una red neuronal o su mal uso, entonces veo algo completamente diferente. Es decir, una gran cantidad de fotos digitales que han sido y serán "mejoradas" por la red neuronal y entrarán en circulación. Algunos de ellos reemplazarán los originales en virtud de su pérdida.

Y si antes de comenzar a escribir este artículo estaba al tanto de los problemas asociados con la moda para mejorar / restaurar imágenes usando redes neuronales, ahora este problema ha encontrado su propia cara específica.

Pero este no es el final de la historia.

3. El aumento en el número de cuadros en el video


Para obtener una película, no es suficiente tener una imagen grande y colorida. Debería haber muchas imágenes de este tipo y deberían reemplazarse entre sí muy rápidamente.

Una de las formas de mejorar las películas es aumentar la velocidad con la que estas imágenes se reemplazan entre sí. O, como es correcto llamarlo, "aumento de la velocidad de fotogramas".

Y en este caso, tampoco hay nada nuevo. Al igual que en el caso de decoloración y reducción en el tamaño de píxeles, no hay forma de obtener información sobre lo que sucedió entre cuadros.

Se puede suponer cómo el sujeto se movió en el cuadro y lo terminó en los cuadros recién agregados, pero, como en el caso de la coloración y la ampliación, será la finalización de nuevos detalles, y no la restauración de lo que realmente sucedió.

Esto se ilustra mejor con una toma de una demostración de red neuronal DAIN . (A juzgar por la descripción del video "Llegada de un tren" mencionado anteriormente, fue esta red neuronal la que utilizaron sus autores para aumentar la velocidad de cuadros).

Aumentar la cantidad de fotogramas en un video

Aquí hay una comparación de 3 opciones para aumentar la velocidad de cuadros de 12 fps a 24 fps.

El cuadro superior izquierdo es el video original.
La parte inferior derecha es el resultado de DAIN.
Las dos restantes son soluciones con las que los creadores de DAIN se comparan.

Como puede ver, en los tres casos de aumento de la velocidad de cuadros, estamos tratando de encontrar el estado promedio entre dos cuadros. A pesar de que la opción DAIN (marco inferior derecho) se ve más nítida que las opciones SepConv y ToFlow, todavía muestra cómo se manchan la camisa en la parte posterior y la cabeza.

E incluso cuando las tecnologías avanzan y no habrá tales manchas, esto no cambiará la situación con el hecho de que es imposible restaurar lo que sucedió entre los marcos, y todo lo que nos queda es elaborar algún tipo de estado promediado.

Conclusión


Como especialista en TI, entiendo que estas tecnologías no están diseñadas para preservar correctamente las fuentes digitales. Las redes neuronales son necesarias para producir contenido hermoso y fácilmente deslizable.

Por lo tanto, las películas se colorean, recortan y aumentan la velocidad de fotogramas.

Esto es solo un espectáculo, y los autores de tecnología no deberían preocuparse por cómo los usuarios usan su desarrollo.

Pero, como historiador, veo los resultados del uso de estas tecnologías. Un aumento en el número de fotos y películas "mejoradas por redes neuronales" conducirá a su ingreso en materiales utilizados como fuentes históricas en varios estudios. Los fenómenos concomitantes conducirán a eliminar versiones antiguas de archivos y convertir copias "mejoradas" en las únicas disponibles (hola, " Desgaste digital ").

Este proceso no se puede detener, pero se pueden desarrollar enfoques para minimizar el daño. En realidad, de esto se trata el libro sobre estudios de fuentes digitales , y está dirigido específicamente a mis colegas en el taller histórico, y no a los especialistas de la industria de TI.

Sin embargo, hay una manera accesible para todas las personas, independientemente de su profesión, de dejar de llamar al proceso de creación de contenido multimedia fácilmente digerible las palabras "restauración" y "restauración", para no dar a los no iniciados una falsa impresión de la esencia de este proceso y el producto resultante.

Hay otra palabra para esto:
, , . -, , . (, ); , . , , . , ( ) , , . , - - — , (. ). , , , , . Si R. se limitó a corregir solo esta falta de armonía, su papel debería haber sido reconocido como altamente deseable y útil.

(La selección en negrita es mía).

Diccionario Enciclopédico Brockhaus y Efron: Volumen XXVIA, ​​p. 624

Publicado en MIL OCHOCIENTOS Y NUEVE Y NUEVE.

Como puede ver, este problema no se conoce durante el primer milenio y era relevante incluso en el momento de la aparición de la película original "Llegada del tren".

All Articles