Dipfake vidéo une image


Exemple de travail du modĂšle de mouvement du premier ordre


Est-il possible de rĂ©aliser un film entier Ă  partir d'une seule photo? Et aprĂšs avoir enregistrĂ© les mouvements d'une personne, la remplacer par une autre dans la vidĂ©o? Bien sĂ»r, la rĂ©ponse Ă  ces questions est extrĂȘmement importante pour des domaines tels que le cinĂ©ma, la photographie et le dĂ©veloppement de jeux informatiques. La solution pourrait ĂȘtre un traitement photo numĂ©rique utilisant un logiciel spĂ©cialisĂ©. Le problĂšme en question chez les spĂ©cialistes de ce domaine est appelĂ© la tĂąche de synthĂšse automatique de l'animation vidĂ©o ou image.


Pour obtenir le rĂ©sultat escomptĂ©, les approches existantes combinent des objets extraits de l'image d'origine et des mouvements qui peuvent ĂȘtre livrĂ©s sous forme de vidĂ©o distincte - «donneur».


Maintenant, dans la plupart des domaines, l'animation d'image se fait Ă  l'aide d'outils graphiques informatiques. Cette approche nĂ©cessite des connaissances supplĂ©mentaires sur l'objet que nous voulons animer - son modĂšle 3D est gĂ©nĂ©ralement nĂ©cessaire (comment il fonctionne maintenant dans l'industrie cinĂ©matographique peut ĂȘtre trouvĂ© ici ). La plupart des derniĂšres solutions Ă  ce problĂšme sont basĂ©es sur une formation approfondie des modĂšles, qui sont basĂ©s sur des rĂ©seaux neuronaux compĂ©titifs gĂ©nĂ©ratifs (GAN) et des autoencodeurs variationnels (VAE). Ces modĂšles utilisent gĂ©nĂ©ralement des modules prĂ©-formĂ©s pour rechercher des points clĂ©s d'objets dans l'image. Le principal problĂšme de cette approche est que ces modules ne peuvent reconnaĂźtre que les objets sur lesquels ils ont Ă©tĂ© formĂ©s.


, ? «First Order Motion Model for Image Animation». — First Order Motion Model, . , (, , ), , .







, .


, , (occlusion map). . , , .



: .
D∈R3×H×WS∈R3×H×W. SD.



SD. , ( ) R. T^S←DDSO^S←D. .


.



TS←DDS. TS←D. , R( ), TS←DTS←RTR←D. , X, TX←R. Kp1,...,pK, p1,...,pKR.


:



TR←X=TX←R−1, , TX←R.


:


TS←D=TS←R∘TR←D=TS←R∘TD←R−1


TS←R(pk)TD←R(pk). U-Net, K, .
softmax , .


PT^S←DTS←D(z)( z), S. , T^S←D, , D, S. T^S←D, KS0,...,Sk(S0=S), T^S←D. S1,...,SkU-Net.
T^S←D(z):



Mk— (M0 — ) Jk:




, SD^. , . down-sampling Ο∈RHâ€Č×Wâ€Č. Οc T^S←D. S, D^. — O^S←D∈[0,1]Hâ€Č×Wâ€Č, , , S. :


Οâ€Č=O^S←D⊙fw(Ο,T^S←D)


fw(⋅,⋅), ⊙— ( ).


, . Οâ€Č, .



, . reconstruction loss, . - VGG-19. reconstruction loss :


Lrec(D^,D)=∑i=1I|Ni(D^)−Ni(D)|


D^— , D— , Ni(⋅)— i- , VGG-19, I— .



- . . , . , . , , , .


, XTX←Y, , thin plane spline. Y. , TX←R
TY←R. C :


TX←R≡TX←Y∘TY←R


( 1— ):



L1. , reconstruction loss 2 .



S1D1,...DTDt, St. S1D1Dt. , TDt←D1(p)pk:



, — S1D1.


!


4 :


  1. VoxCeleb — 22496 , YouTube;
  2. UvA-Nemo — , 1240 ;
  3. BAIR robot pushing — , , , . 42880 128 .
  4. 280 TaiChi YouTube.

X2Face Monkey-Net, .



Comme le montre le tableau, le modÚle de mouvement du premier ordre est supérieur aux autres approches à tous égards.


Les exemples tant attendus



Mgif



Mode


Essayez-le maintenant! C'est trÚs simple, tout est préparé ici .


All Articles