🍃 🎅🏽 ⚜️ Dipfake video satu bingkai 🏙️ 🧕🏻 👐🏻

Contoh kerja Model Gerak Pertama

Apakah mungkin membuat seluruh film dari satu foto? Dan setelah merekam gerakan satu orang, gantikan dia dengan orang lain di video? Tentu saja, jawaban atas pertanyaan-pertanyaan ini sangat penting untuk bidang-bidang seperti bioskop, fotografi, dan pengembangan game komputer. Solusinya bisa pemrosesan foto digital menggunakan perangkat lunak khusus. Masalah yang dipermasalahkan di antara spesialis di bidang ini disebut tugas sintesis otomatis video atau animasi gambar.

Untuk mendapatkan hasil yang diharapkan, pendekatan yang ada menggabungkan objek yang diekstraksi dari gambar asli dan gerakan yang dapat disampaikan sebagai video terpisah - "donor".

Sekarang, di sebagian besar wilayah, animasi gambar dilakukan dengan menggunakan alat grafik komputer. Pendekatan ini membutuhkan pengetahuan tambahan tentang objek yang ingin kita animasi - model 3D-nya biasanya diperlukan (cara kerjanya di industri film sekarang dapat dibaca di sini ). Sebagian besar solusi terbaru untuk masalah ini didasarkan pada pelatihan model yang mendalam, yang didasarkan pada jaringan saraf generatif-kompetitif (GAN) dan autoencoder variasional (VAE). Model-model ini biasanya menggunakan modul pra-terlatih untuk mencari titik kunci dari objek dalam gambar. Masalah utama dengan pendekatan ini adalah bahwa modul-modul ini hanya dapat mengenali objek yang mereka latih.

, ? «First Order Motion Model for Image Animation». — First Order Motion Model, . , (, , ), , .

…

, .

, , (occlusion map). . , , .

: .
$D \in \mathbb{R} ^{3×H×W}$ $S ∈ \mathbb{R} ^{3×H×W}$ . $S$ $D$ .

$S$ $D$ . , ( ) $R$ . $\hat{\mathcal{T}}_{\mathrm{S \leftarrow D}}$ $D$ $S$ $\hat{\mathcal{O}}_{\mathrm{S \leftarrow D}}$ . .

$\mathcal{T}_{\mathrm{S \leftarrow D}}$ $D$ $S$ . $\mathcal{T}_{\mathrm{S \leftarrow D}}$ . , $R$ ( ), $\mathcal{T}_{\mathrm{S \leftarrow D}}$ $\mathcal{T}_{\mathrm{S \leftarrow R}}$ $\mathcal{T}_{\mathrm{R \leftarrow D}}$ . , $X$ , $\mathcal{T}_{\mathrm{X \leftarrow R}}$ . $K$ $p_1,..., p_K$ , $p_1,..., p_K$ $R$ .

$\mathcal{T}_{\mathrm{R \leftarrow X}} = \mathcal{T}_{\mathrm{X \leftarrow R}}^{-1}$ , , $\mathcal{T}_{\mathrm{X \leftarrow R}}$ .

T_{S \leftarrow D} = T_{S \leftarrow R} \circ T_{R \leftarrow D} = T_{S \leftarrow R} \circ T_{D \leftarrow R}^{- 1}

$\mathcal{T}_{\mathrm{S \leftarrow D}} = \mathcal{T}_{\mathrm{S \leftarrow R}} \circ \mathcal{T}_{\mathrm{R \leftarrow D}} = \mathcal{T}_{\mathrm{S \leftarrow R}} \circ \mathcal{T}_{\mathrm{D \leftarrow R}}^{-1}$

$\mathcal{T}_{\mathrm{S \leftarrow R}}(p_k)$ $\mathcal{T}_{\mathrm{D \leftarrow R}}(p_k)$ . U-Net, $K$ , .
softmax , .

$P$ $\hat{\mathcal{T}}_{\mathrm{S \leftarrow D}}$ $\mathcal{T}_{\mathrm{S \leftarrow D}}(z)$ ( $z$ ), $S$ . , $\hat{\mathcal{T}}_{\mathrm{S \leftarrow D}}$ , , $D$ , $S$ . $\hat{\mathcal{T}}_{\mathrm{S \leftarrow D}}$ , $K$ $S^0,...,S^k$ ( $S^0 = S$ ), $\hat{\mathcal{T}}_{\mathrm{S \leftarrow D}}$ . $S^1,...,S^k$ U-Net.
$\hat{\mathcal{T}}_{\mathrm{S \leftarrow D}}(z)$ :

$M_k$ — ( $M_0$ — ) $J_k$ :

, $S$ $\hat{D}$ . , . down-sampling $\xi \in \mathbb{R}^{H' \times W'}$ . $\xi$ c $\hat{\mathcal{T}}_{\mathrm{S \leftarrow D}}$ . $S$ , $\hat{D}$ . — $\hat{\mathcal{O}}_{\mathrm{S \leftarrow D}} \in [0, 1]^{H' \times W'}$ , , , $S$ . :

ξ^{'} = {\hat{O}}_{S \leftarrow D} ⊙ f_{w} (ξ, {\hat{T}}_{S \leftarrow D})

$\xi ' = \hat{\mathcal{O}}_{\mathrm{S \leftarrow D}} \odot f_w(\xi, \hat{\mathcal{T}}_{\mathrm{S \leftarrow D}})$

$f_w(\cdot, \cdot)$ , $\odot$ — ( ).

, . $\xi '$ , .

, . reconstruction loss, . - VGG-19. reconstruction loss :

L_{r e c} (\hat{D}, D) = \sum_{i = 1}^{I} | N_{i} (\hat{D}) - N_{i} (D) |

$L_{rec} (\hat{D}, D)= \sum_{i = 1}^I |N_i(\hat{D}) - N_i(D)|$

$\hat{D}$ — , $D$ — , $N_i(\cdot)$ — i- , VGG-19, $I$ — .

- . . , . , . , , , .

, $X$ $\mathcal{T}_{\mathrm{X \leftarrow Y}}$ , , thin plane spline. $Y$ . , $\mathcal{T}_{\mathrm{X \leftarrow R}}$
$\mathcal{T}_{\mathrm{Y \leftarrow R}}$ . C :