Quando ouço as palavras "restaurou a rede neural", subo para verificar os backups

Além de especialista em TI, também sou historiador de tecnologia, e é isso que determina minha reação às notícias sobre as mais recentes conquistas no campo das tecnologias digitais. Há um mês, decidi começar a escrever um livro para pessoas distantes da TI e próximas a fontes e pesquisas históricas (“Estudo sobre fontes digitais - problemas específicos ” está escrito nos sites de rascunhos), no qual direi a eles o que o desenvolvimento de tecnologias digitais transformou para eles .

Alguns dias depois, as notícias apareceram na Internet: "Chegada do trem" foi melhorada com a ajuda de redes neurais - o filme de 1896 agora pode ser assistido em 4K e 60 quadros por segundo ", e esse é um bom motivo para informar as pessoas de TI sobre a mesma coisa.

Não tenho o filme original "Chegada do trem", então usei fotografias modernas (reduzidas ou descoloridas) + fotos da década de 1930 (presumivelmente) como amostras de teste

Quando ouço as palavras "restaurou a rede neural", subo para verificar os backups

0. Qual é o problema?


O problema que será discutido surge por causa de como exatamente os historiadores reais e as redes neurais funcionam.

Segundo o leigo, o historiador ideal senta-se exclusivamente nos arquivos e trabalha com documentos oficiais e bem preservados. Na realidade, os historiadores trabalham com as fontes que possuem e na forma em que chegaram a eles.

Na realidade, além de documentos oficiais em arquivos estatais, fotos pessoais, cartas, memórias etc. podem servir como fontes.Infelizmente, os historiadores muitas vezes trabalham não com documentos originais, mas com várias cópias.

Você já ouviu a frase que vários ícones e textos "chegaram até nós nas listas"? Nesse caso, a palavra "lista" não significa um catálogo no qual algum trabalho é mencionado, mas uma cópia desse trabalho. Este termo vem da palavra "write off".

Muitos dos textos, fotografias e filmes chegaram até nós na forma de cópias, e não há garantia de que a única cópia do filme “Dezessete Momentos da Primavera” que alcançou os historiadores do futuro não seja apenas uma versão pintada e recortada. Pois os caminhos da fonte histórica são inescrutáveis.

Por outro lado, há muitas notícias de que a rede neural restaurou ou melhorou algo. Parece algum tipo de mágica e muitos têm a sensação de que algum tipo de inteligência artificial pode realmente restaurar algo.

De fato, sobre qualquer restauração de cores ou detalhes em imagens pequenas não está falando e não pode ir. O programa simplesmente adiciona elementos à foto ou vídeo que seus algoritmos determinam conforme apropriado.

Infelizmente, na realidade, é impossível restaurar a imagem perdida, porque a operação de branqueamento é irreversível e, se uma fotografia não tiver parte da imagem, ela não poderá ser restaurada apenas com base na mesma fotografia.

Portanto, as redes neurais fazem exatamente a mesma coisa que as pessoas em tais casos - elas fantasiam com base em sua experiência.

E agora vou mostrar o que é obtido como resultado dessas fantasias.

1. Comparação de diferentes serviços de colorização


Embora colorir fotos e filmes não seja um fenômeno completamente novo, agora está disponível para todos que têm acesso à Internet, e muitas pessoas aproveitam essa nova oportunidade.

Já vivemos em um mundo onde existem muitas fotografias pintadas de soldados da Grande Guerra Patriótica, o interior do Titanic, a família real e muitos outros.

Pode parecer para uma pessoa não iniciada que se trata de restaurar a cor original e que uma fotografia colorida mostra como pessoas e objetos de cem anos atrás realmente pareciam. Com base nessas fotos, alguém pode começar a tirar conclusões sobre a vida das pessoas no passado, analisar vários eventos e situações.
E embora eu compreenda a impossibilidade de restaurar a cor real de uma fotografia em preto e branco, como pesquisador, devo verificar e ter certeza de que estou certo.

Para testar essa idéia, tirei duas fotografias coloridas modernas, as descorei em um editor gráfico e as conduzi através dos serviços de coloração online.

1.1 Colorização do carro Ford A Phaeton


Nesse caso, usei uma fotografia tirada por mim no final de janeiro de 2020 no aeroporto Domodedovo de Moscou. Não sei como a coloração desses carros combina com a cor original, mas isso não importa. Nesta experiência, verificamos com que precisão a cor da foto branqueada será restaurada.

Colorização do carro Ford A Phaeton

Realizei esse experimento em fotografias de carros diferentes e o resultado não foi alterado: todos os serviços pintam carros reais de maneira diferente, mas ninguém pinta corretamente.

Ao mesmo tempo, eu pessoalmente prefiro não a versão original, mas o resultado da coloração de deepai.org - uma cor corporal calma com as laterais do telhado azul. (Mas nesta versãoa cor original é mostrada nas faixas numeradas 2 e 7, mas eu gosto da faixa 5 colorida por algoricmia.com , onde parte é colorida de amarelo e parte vermelha).

O problema com a coloração do carro é explicado com muita simplicidade - dados incorporados em cada rede neural. E da mesma maneira que na coloração manual, a coloração automática indica exatamente com base em qual experiência a coloração foi feita.

Ou seja, não há dúvida de qualquer restauração da cor original do discurso e não pode ir.

Claro, existem pessoas que dizem que você precisa enviar ainda mais fotos para a rede neural e tudo ficará bem, mas isso contradiz o próprio princípio das redes neurais - elas simplesmente calculam a média dos dados carregados nelas e não conseguem ir além da "experiência" obtida dessa maneira.

1.2


O experimento seguinte foi com uma fotografia mostrando arquitetura e muitas pessoas em roupas coloridas. A foto original foi cortada, descolorida e carregada nos serviços de coloração.

Colorização da fonte no VDNH

Devido ao grande número de objetos a serem pintados, o resultado não é tão claro como foi o caso do Ford A Phaeton.

Sim, nenhum dos serviços pintou as estátuas na cor dourada, tulipas vermelhas na parte inferior da imagem e camisetas verdes e azuis brilhantes. No entanto, todos os serviços lidaram brilhantemente com a pintura de uma camiseta branca de um homem sentado no parapeito de uma fonte e uma blusa branca de uma mulher andando da direita para a esquerda com uma bolsa do lado.

Assim, temos novamente um resultado completamente previsível - os serviços de coloração não conseguem restaurar a cor real.

Mas o benefício deste exemplo é não repetir o fato óbvio novamente. Obviamente, repetir os fatos óbvios é necessário e muito correto, mas há mais um ponto.

Bônus de 9may.mail.ru


Além de colorir, o serviço 9may.mail.ru realiza a operação “solução de problemas”. Se você comparar apenas uma foto colorida e uma foto colorida com a qual os defeitos foram removidos, você encontrará um recurso muito interessante.

Bônus de 9may.mail.ru

Esta ilustração mostra um fragmento ampliado da borda direita da foto com uma fonte. Como você pode ver claramente, durante a "eliminação de defeitos", o elemento escultural foi removido (não ousarei dizer seu nome :))

"Eliminação de defeitos" semelhante também foi vista em outras fotografias coloridas por 9may.mail.ru, mas há essas não eram exclusões tão grandes.

Assim, a fonte histórica não foi apenas pintada incorretamente, mas também teve "arranhões" que destruíram parte da imagem (o que novamente nos leva de volta à questão de "Desgaste digital ”)

Este exemplo permite avançar suavemente para a próxima parte da história sobre o impacto da“ melhoria ”de fotografias por redes neurais em fontes históricas.

2. Aumento no tamanho da foto


Além da coloração, a ampliação das fotografias existia na era pré-digital.

O resultado para os dois casos é o mesmo, começamos a ver o elemento mínimo da foto. Na fotografia analógica, era "grão", agora seu lugar foi ocupado pelo "pixel", mas eles têm uma essência - é o elemento indivisível mínimo (eu realmente quero dizer "atômico", mas apesar do nome - o átomo não é indivisível :))

Se olharmos em um tabuleiro de xadrez em um dispositivo óptico de ampliação (telescópio, binóculo etc.), podemos "aumentar o zoom" e descobrir detalhes que antes não eram visíveis.

Mas se fotografamos um tabuleiro de xadrez para que ele caiba em um grão / pixel, não há como "aumentar o zoom" e distinguir cada célula individualmente. Ao ampliar essa imagem, veremos um grande ponto de uma cor onde deveria estar o tabuleiro de xadrez.

Exatamente a mesma situação acontecerá se alterarmos o tamanho do pixel de uma fotografia digital de um tabuleiro de xadrez - as informações sobre as células no tabuleiro de xadrez serão perdidas e não há como restaurá-lo apenas com base na mesma fotografia.

Em geral, me sinto estranho ao dizer essa ideia comum, mas, como mostra a prática, a idéia da irreversibilidade de reduzir a fotografia digital não é óbvia para todos.

De tempos em tempos, aparecem notícias de que alguma rede neural aumentou e melhorou a foto antiga, para que agora possamos ver os detalhes que não podíamos ver antes.

Assim como no caso da coloração, tentei aplicar serviços on-line a fotos reais.

2.1 Moinho desconhecido da década de 1930


Certa vez, no sábado à noite, um colega me enviou um link para uma fotografia na página Arquivo do Estado de Perm em Vkontakte . 1024 por 705 pixels que foram submetidos à compactação JPEG várias vezes, com etiquetas pouco legíveis.

Moinho desconhecido dos anos 30

Nós nos divertimos muito, resolvemos esse enigma e, na segunda-feira, ele confirmou nossas descobertas, indo ao arquivo e estudando a fotografia original.

Isso me permitiu realizar um experimento e ver do que as redes neurais são capazes.Como

Moinho desconhecido da década de 1930 - comparação

resultado, a opção mais legível foi "aumento simples" (em geral, eu li essa inscrição simplesmente ampliando-a na tela do smartphone).

O biz.mail.ru tornou a etiqueta ilegível em alta escala, mas a linha “Acme Road Mach Co” permanece parcialmente legível em uma certa escala.

Os demais candidatos fizeram tanto barulho que a inscrição deixou de ser lida. Embora permanecesse parcialmente reconhecível.

Ou seja, os serviços para "melhorar fotos" fizeram exatamente o oposto - eles pioraram a foto real.

E se você diz que melhorar as inscrições em fotografias antigas não é uma tarefa para esses serviços, então eu concordo, porque esse é precisamente o problema. O fato é que esses serviços existem, eles estão posicionados como serviços de “restauração” e “restauração”, sem explicar aos usuários os riscos e conseqüências associados à tecnologia utilizada. Pessoas que estudam a história de sua família ou localidade podem "melhorar" suas fotografias digitais.

E tenho grandes dúvidas de que todas elas armazenem cuidadosamente a foto original não melhorada.

Tenho mais um exemplo relacionado ao arquivo Perm e à atribuição de fotografias, mas ele estará na próxima atualização do Digital Source Studies , e agora prefiro retornar às máquinas que fotografei em Domodedovo.

2.2 Capuz Lorena-Dietrich B36


Para verificar as possibilidades de ampliar fotos, tirei uma das minhas fotos, reduzi o tamanho do pixel de 4000 para 3000 para 1024 para 768 e dirigi pelos mesmos serviços que no caso da foto do moinho do exemplo anterior.

Lorena-Dietrich B36

E se um visualizador comum dessas imagens "aprimoradas" não as vê, eu estava interessado em pequenos detalhes.

Capuz Lorena-Dietrich B36

O resultado foi previsível.

O logotipo na grade do radiador é reconhecível, mas distorcido - as linhas ficaram uniformes.

Os orifícios de ventilação lateral são suavizados e não são distinguíveis dos reflexos no capô.

Como esperado, muitos pequenos detalhes desapareceram, mas este exemplo não está aqui para confirmar mais uma vez a idéia da irreversibilidade de perder informações de uma fotografia digital e reduzir seu tamanho de pixel.

Se você examinou cuidadosamente as fotos, já viu sinais de que a rede neural havia funcionado aqui.

Bônus de letsenhance.io


Aqui está a hora de lembrar como as redes neurais funcionam - seleciona opções adequadas de sua própria "experiência" obtida como resultado do treinamento.

E agora vou mostrar como o letsenhance.io aumentou 4 vezes mais a foto, o que reduzi 4 vezes.

À esquerda, você vê a foto original antes da redução, à direita - obtida após a ampliação. (Uma foto reduzida intermediária não é mostrada)

Bônus de letsenhance.io

Sim, isso mesmo - esta é a cara do macaco.

E se você vê neste caso engraçado o problema de treinar uma rede neural ou seu uso indevido, então vejo uma coisa completamente diferente. Ou seja, um grande número de fotos digitais que foram e serão "melhoradas" pela rede neural e entrarão em circulação. Alguns deles substituirão os originais em virtude de sua perda.

E se antes de começar a escrever este artigo eu estava ciente dos problemas associados à moda para melhorar / restaurar imagens usando redes neurais, agora esse problema encontrou sua própria face específica.

Mas este não é o fim da história.

3. O aumento no número de quadros no vídeo


Para conseguir um filme, não basta ter uma imagem grande e colorida. Devem existir muitas dessas imagens e elas devem ser substituídas muito rapidamente.

Uma das maneiras de melhorar os filmes é aumentar a velocidade com que essas fotos se substituem. Ou, como é correto chamá-lo, "aumento da taxa de quadros".

E também neste caso não há nada novo. Assim como no caso de descoloração e redução no tamanho do pixel, não há como obter informações sobre o que aconteceu entre os quadros.

Pode-se supor como o assunto se moveu no quadro e o finalizou nos quadros adicionados recentemente, mas, como no caso de colorização e ampliação, será a conclusão de novos detalhes, e não a restauração do que realmente aconteceu.

Isso é melhor ilustrado por uma cena de uma demonstração de rede neural DAIN . (A julgar pela descrição do vídeo “Chegada de um trem” mencionada anteriormente, foi essa rede neural usada por seus autores para aumentar a taxa de quadros)

Aumentando o número de quadros em um vídeo

Aqui está uma comparação de três opções para aumentar a taxa de quadros de 12 fps para 24 fps.

O quadro superior esquerdo é o vídeo original.
O canto inferior direito é o resultado de DAIN.
As duas restantes são soluções com as quais os criadores de DAIN se comparam.Como

você pode ver, nos três casos de aumento da taxa de quadros, estamos tentando encontrar o estado médio entre dois quadros. Apesar de a opção DAIN (quadro inferior direito) parecer mais nítida que as opções SepConv e ToFlow, ela ainda mostra como a camisa nas costas e na cabeça está manchada.

E mesmo quando as tecnologias avançam e não haverá essa mancha, isso não mudará a situação com o fato de que é impossível restaurar o que aconteceu entre os quadros, e tudo o que resta para nós é estabelecer algum tipo de estado médio.

Conclusão


Como especialista em TI, entendo que essas tecnologias não foram projetadas para preservar corretamente as fontes digitais. Redes neurais são necessárias para produzir conteúdo bonito e facilmente deslizável.

Portanto, os filmes são coloridos, cortados e aumentam a taxa de quadros.

Isso é apenas show business, e os autores de tecnologia não devem se preocupar com a maneira como os usuários usam seu desenvolvimento.

Mas, como historiador, vejo os resultados do uso dessas tecnologias. Um aumento no número de fotos e filmes “aprimorados por redes neurais” levará à entrada de materiais usados ​​como fontes históricas em vários estudos. Os fenômenos concomitantes levarão à lavagem de versões antigas de arquivos e à transformação de cópias "aprimoradas" nas únicas disponíveis (oi, " Digital Wear ").

Esse processo não pode ser parado, mas abordagens podem ser desenvolvidas para minimizar os danos. Na verdade, é sobre isso que trata o livro sobre estudos de fontes digitais , e é voltado especificamente para meus colegas do workshop histórico, e não para especialistas do setor de TI.

No entanto, existe uma maneira acessível a todas as pessoas, independentemente da profissão, de parar de chamar o processo de criação de conteúdo de mídia facilmente digerível das palavras "restauração" e "restauração", de modo a não dar aos não iniciados uma falsa impressão da essência desse processo e do produto resultante.

Há outra palavra para isso:
, , . -, , . (, ); , . , , . , ( ) , , . , - - — , (. ). , , , , . Se R. se limitasse a corrigir apenas essa desarmonia, seu papel deveria ser reconhecido como altamente desejável e útil.

(Seleção em negrito é minha).

Dicionário Enciclopédico Brockhaus e Efron: Volume XXVIA, ​​p. 624

Publicado em MIL OITO CEM E NOVE E NOVE.

Como você pode ver, esse problema não é conhecido no primeiro milênio e era relevante mesmo na época do aparecimento do filme original “Chegada do trem”.

All Articles