Dipfake video un cuadro


Ejemplo de trabajo del modelo de movimiento de primer orden


¿Es posible hacer una película completa a partir de una fotografía? Y habiendo grabado los movimientos de una persona, ¿reemplazarlo con otra en el video? Por supuesto, la respuesta a estas preguntas es extremadamente importante para áreas como el cine, la fotografía y el desarrollo de juegos de computadora. La solución podría ser el procesamiento digital de fotos utilizando un software especializado. El problema en cuestión entre los especialistas en este campo se llama la tarea de síntesis automática de video o animación de imágenes.


Para obtener el resultado esperado, los enfoques existentes combinan objetos extraídos de la imagen original y movimientos que pueden entregarse como un video separado: "donante".


Ahora, en la mayoría de las áreas, la animación de imágenes se realiza mediante herramientas de gráficos por computadora. Este enfoque requiere un conocimiento adicional sobre el objeto que queremos animar: su modelo 3D generalmente es necesario ( aquí se puede encontrar cómo funciona ahora en la industria del cine ). La mayoría de las últimas soluciones a este problema se basan en la capacitación en profundidad de modelos, que se basan en redes neuronales generativas competitivas (GAN) y autoencoders variacionales (VAE). Estos modelos generalmente usan módulos pre-entrenados para buscar puntos clave de objetos en la imagen. El principal problema con este enfoque es que estos módulos solo pueden reconocer los objetos en los que fueron entrenados.


, ? «First Order Motion Model for Image Animation». — First Order Motion Model, . , (, , ), , .




, .


, , (occlusion map). . , , .



: .
DR3×H×WSR3×H×W. SD.



SD. , ( ) R. T^SDDSO^SD. .


.



TSDDS. TSD. , R( ), TSDTSRTRD. , X, TXR. Kp1,...,pK, p1,...,pKR.


:



TRX=TXR1, , TXR.


:


TSD=TSRTRD=TSRTDR1


TSR(pk)TDR(pk). U-Net, K, .
softmax , .


PT^SDTSD(z)( z), S. , T^SD, , D, S. T^SD, KS0,...,Sk(S0=S), T^SD. S1,...,SkU-Net.
T^SD(z):



Mk— (M0 — ) Jk:




, SD^. , . down-sampling ξRH×W. ξc T^SD. S, D^. — O^SD[0,1]H×W, , , S. :


ξ=O^SDfw(ξ,T^SD)


fw(,), — ( ).


, . ξ, .



, . reconstruction loss, . - VGG-19. reconstruction loss :


Lrec(D^,D)=i=1I|Ni(D^)Ni(D)|


D^— , D— , Ni()— i- , VGG-19, I— .



- . . , . , . , , , .


, XTXY, , thin plane spline. Y. , TXR
TYR. C :


TXRTXYTYR


( 1— ):



L1. , reconstruction loss 2 .



S1D1,...DTDt, St. S1D1Dt. , TDtD1(p)pk:



, — S1D1.


!


4 :


  1. VoxCeleb — 22496 , YouTube;
  2. UvA-Nemo — , 1240 ;
  3. BAIR robot pushing — , , , . 42880 128 .
  4. 280 TaiChi YouTube.

X2Face Monkey-Net, .



Como se puede ver en la tabla, el modelo de movimiento de primer orden es superior a otros enfoques en todos los aspectos.


Los ejemplos tan esperados



Mgif



Moda


¡Ahora pruébalo tú mismo! Es muy simple, todo está preparado aquí .


All Articles