🎽 🎷 👉🏽 Dipfake视频一帧 🕳️ 👉🏻 🙋🏻

一阶运动模型工作示例

可以用一张照片拍整部电影吗？并录制了一个人的动作，然后在视频中将另一个人替换了？当然，这些问题的答案对于电影，摄影和计算机游戏开发等领域极为重要。解决方案可以是使用专用软件进行数字照片处理。该领域专家中有问题的问题称为视频或图像动画的自动合成任务。

为了获得预期的结果，现有方法结合了从原始图像中提取的对象和可以作为单独视频（“捐赠者”）传递的动作。

现在，在大多数地区，图像动画是使用计算机图形工具完成的。这种方法需要有关我们要设置动画的对象的附加知识-通常需要3D模型（可在此处找到其在电影界的工作方式）。该问题的大多数最新解决方案都基于对模型的深入训练，这些模型基于生成竞争性神经网络（GAN）和变分自动编码器（VAE）。这些模型通常使用预训练的模块来搜索图像中对象的关键点。这种方法的主要问题是这些模块只能识别对其进行训练的对象。

如何解决框架中任意物体所描述的问题？在文章“ 用于图像动画的一阶运动模型 ”中提出了一种方法。作者提出了他们的神经网络模型-一阶运动模型，该模型解决了图像动画的问题，而无需对动画对象进行预训练。研究了许多描述一个类别的对象（例如，面孔，人体）的视频后，作者开发的网络使您可以为与此类别相关的所有对象设置动画。

让我们更详细地了解它的工作原理...

解决方案功能

为了模拟复杂的运动，使用了一组对象关键要素的编码器，这些编码器在没有老师指导和局部仿射变换的情况下进行了训练。

, , (occlusion map). . , , .

: .
$D \in \mathbb{R} ^{3×H×W}$ $S ∈ \mathbb{R} ^{3×H×W}$ . $S$ $D$ .

$S$ $D$ . , ( ) $R$ . $\hat{\mathcal{T}}_{\mathrm{S \leftarrow D}}$ $D$ $S$ $\hat{\mathcal{O}}_{\mathrm{S \leftarrow D}}$ . .

$\mathcal{T}_{\mathrm{S \leftarrow D}}$ $D$ $S$ . $\mathcal{T}_{\mathrm{S \leftarrow D}}$ . , $R$ ( ), $\mathcal{T}_{\mathrm{S \leftarrow D}}$ $\mathcal{T}_{\mathrm{S \leftarrow R}}$ $\mathcal{T}_{\mathrm{R \leftarrow D}}$ . , $X$ , $\mathcal{T}_{\mathrm{X \leftarrow R}}$ . $K$ $p_1,..., p_K$ , $p_1,..., p_K$ $R$ .

$\mathcal{T}_{\mathrm{R \leftarrow X}} = \mathcal{T}_{\mathrm{X \leftarrow R}}^{-1}$ , , $\mathcal{T}_{\mathrm{X \leftarrow R}}$ .

T_{S \leftarrow D} = T_{S \leftarrow R} \circ T_{R \leftarrow D} = T_{S \leftarrow R} \circ T_{D \leftarrow R}^{- 1}

$\mathcal{T}_{\mathrm{S \leftarrow D}} = \mathcal{T}_{\mathrm{S \leftarrow R}} \circ \mathcal{T}_{\mathrm{R \leftarrow D}} = \mathcal{T}_{\mathrm{S \leftarrow R}} \circ \mathcal{T}_{\mathrm{D \leftarrow R}}^{-1}$

$\mathcal{T}_{\mathrm{S \leftarrow R}}(p_k)$ $\mathcal{T}_{\mathrm{D \leftarrow R}}(p_k)$ . U-Net, $K$ , .
softmax , .

$P$ $\hat{\mathcal{T}}_{\mathrm{S \leftarrow D}}$ $\mathcal{T}_{\mathrm{S \leftarrow D}}(z)$ ( $z$ ), $S$ . , $\hat{\mathcal{T}}_{\mathrm{S \leftarrow D}}$ , , $D$ , $S$ . $\hat{\mathcal{T}}_{\mathrm{S \leftarrow D}}$ , $K$ $S^0,...,S^k$ ( $S^0 = S$ ), $\hat{\mathcal{T}}_{\mathrm{S \leftarrow D}}$ . $S^1,...,S^k$ U-Net.
$\hat{\mathcal{T}}_{\mathrm{S \leftarrow D}}(z)$ :

$M_k$ — ( $M_0$ — ) $J_k$ :

, $S$ $\hat{D}$ . , . down-sampling $\xi \in \mathbb{R}^{H' \times W'}$ . $\xi$ c $\hat{\mathcal{T}}_{\mathrm{S \leftarrow D}}$ . $S$ , $\hat{D}$ . — $\hat{\mathcal{O}}_{\mathrm{S \leftarrow D}} \in [0, 1]^{H' \times W'}$ , , , $S$ . :

ξ^{'} = {\hat{O}}_{S \leftarrow D} ⊙ f_{w} (ξ, {\hat{T}}_{S \leftarrow D})

$\xi ' = \hat{\mathcal{O}}_{\mathrm{S \leftarrow D}} \odot f_w(\xi, \hat{\mathcal{T}}_{\mathrm{S \leftarrow D}})$

$f_w(\cdot, \cdot)$ , $\odot$ — ( ).

, . $\xi '$ , .

, . reconstruction loss, . - VGG-19. reconstruction loss :

L_{r e c} (\hat{D}, D) = \sum_{i = 1}^{I} | N_{i} (\hat{D}) - N_{i} (D) |

$L_{rec} (\hat{D}, D)= \sum_{i = 1}^I |N_i(\hat{D}) - N_i(D)|$

$\hat{D}$ — , $D$ — , $N_i(\cdot)$ — i- , VGG-19, $I$ — .

- . . , . , . , , , .

, $X$ $\mathcal{T}_{\mathrm{X \leftarrow Y}}$ , , thin plane spline. $Y$ . , $\mathcal{T}_{\mathrm{X \leftarrow R}}$
$\mathcal{T}_{\mathrm{Y \leftarrow R}}$ . C :