🍿 🔗 📚 فيديو Dipfake إطار واحد 🚝 🤙🏼 🏇🏻

مثال عملي أول نموذج الحركة الحركة

هل من الممكن عمل فيلم كامل من صورة واحدة؟ وبعد تسجيل حركات شخص ما ، استبدله بآخر في الفيديو؟ بالطبع ، الإجابة على هذه الأسئلة مهمة للغاية لمجالات مثل السينما والتصوير الفوتوغرافي وتطوير ألعاب الكمبيوتر. يمكن أن يكون الحل معالجة الصور الرقمية باستخدام برامج متخصصة. تسمى المشكلة المعنية بين المتخصصين في هذا المجال مهمة التوليف التلقائي للفيديو أو الصور المتحركة.

للحصول على النتيجة المتوقعة ، تجمع المناهج الموجودة بين الأشياء المستخرجة من الصورة الأصلية والحركات التي يمكن تقديمها كفيديو منفصل - "مانح".

الآن ، في معظم المناطق ، يتم تنفيذ الرسوم المتحركة للصور باستخدام أدوات رسومات الكمبيوتر. يتطلب هذا النهج معرفة إضافية حول الكائن الذي نريد تحريكه - عادة ما يكون نموذجه ثلاثي الأبعاد ضروريًا (يمكن العثور هنا على كيفية عمله الآن في صناعة الأفلام ). تعتمد معظم أحدث الحلول لهذه المشكلة على التدريب المتعمق للنماذج ، والتي تستند إلى الشبكات العصبية التنافسية التنافسية (GAN) وأجهزة الترميز التلقائي المتنوعة (VAE). تستخدم هذه النماذج عادةً وحدات تم تدريبها مسبقًا للبحث عن نقاط رئيسية للكائنات في الصورة. المشكلة الرئيسية في هذا النهج هي أن هذه الوحدات يمكن أن تتعرف فقط على الأشياء التي تم تدريبها عليها.

, ? «First Order Motion Model for Image Animation». — First Order Motion Model, . , (, , ), , .

…

, .

, , (occlusion map). . , , .

: .
$D \in \mathbb{R} ^{3×H×W}$ $S ∈ \mathbb{R} ^{3×H×W}$ . $S$ $D$ .

$S$ $D$ . , ( ) $R$ . $\hat{\mathcal{T}}_{\mathrm{S \leftarrow D}}$ $D$ $S$ $\hat{\mathcal{O}}_{\mathrm{S \leftarrow D}}$ . .

$\mathcal{T}_{\mathrm{S \leftarrow D}}$ $D$ $S$ . $\mathcal{T}_{\mathrm{S \leftarrow D}}$ . , $R$ ( ), $\mathcal{T}_{\mathrm{S \leftarrow D}}$ $\mathcal{T}_{\mathrm{S \leftarrow R}}$ $\mathcal{T}_{\mathrm{R \leftarrow D}}$ . , $X$ , $\mathcal{T}_{\mathrm{X \leftarrow R}}$ . $K$ $p_1,..., p_K$ , $p_1,..., p_K$ $R$ .

$\mathcal{T}_{\mathrm{R \leftarrow X}} = \mathcal{T}_{\mathrm{X \leftarrow R}}^{-1}$ , , $\mathcal{T}_{\mathrm{X \leftarrow R}}$ .

T_{S \leftarrow D} = T_{S \leftarrow R} \circ T_{R \leftarrow D} = T_{S \leftarrow R} \circ T_{D \leftarrow R}^{- 1}

$\mathcal{T}_{\mathrm{S \leftarrow D}} = \mathcal{T}_{\mathrm{S \leftarrow R}} \circ \mathcal{T}_{\mathrm{R \leftarrow D}} = \mathcal{T}_{\mathrm{S \leftarrow R}} \circ \mathcal{T}_{\mathrm{D \leftarrow R}}^{-1}$

$\mathcal{T}_{\mathrm{S \leftarrow R}}(p_k)$ $\mathcal{T}_{\mathrm{D \leftarrow R}}(p_k)$ . U-Net, $K$ , .
softmax , .

$P$ $\hat{\mathcal{T}}_{\mathrm{S \leftarrow D}}$ $\mathcal{T}_{\mathrm{S \leftarrow D}}(z)$ ( $z$ ), $S$ . , $\hat{\mathcal{T}}_{\mathrm{S \leftarrow D}}$ , , $D$ , $S$ . $\hat{\mathcal{T}}_{\mathrm{S \leftarrow D}}$ , $K$ $S^0,...,S^k$ ( $S^0 = S$ ), $\hat{\mathcal{T}}_{\mathrm{S \leftarrow D}}$ . $S^1,...,S^k$ U-Net.
$\hat{\mathcal{T}}_{\mathrm{S \leftarrow D}}(z)$ :

$M_k$ — ( $M_0$ — ) $J_k$ :

, $S$ $\hat{D}$ . , . down-sampling $\xi \in \mathbb{R}^{H' \times W'}$ . $\xi$ c $\hat{\mathcal{T}}_{\mathrm{S \leftarrow D}}$ . $S$ , $\hat{D}$ . — $\hat{\mathcal{O}}_{\mathrm{S \leftarrow D}} \in [0, 1]^{H' \times W'}$ , , , $S$ . :

ξ^{'} = {\hat{O}}_{S \leftarrow D} ⊙ f_{w} (ξ, {\hat{T}}_{S \leftarrow D})

$\xi ' = \hat{\mathcal{O}}_{\mathrm{S \leftarrow D}} \odot f_w(\xi, \hat{\mathcal{T}}_{\mathrm{S \leftarrow D}})$

$f_w(\cdot, \cdot)$ , $\odot$ — ( ).

, . $\xi '$ , .

, . reconstruction loss, . - VGG-19. reconstruction loss :

L_{r e c} (\hat{D}, D) = \sum_{i = 1}^{I} | N_{i} (\hat{D}) - N_{i} (D) |

$L_{rec} (\hat{D}, D)= \sum_{i = 1}^I |N_i(\hat{D}) - N_i(D)|$

$\hat{D}$ — , $D$ — , $N_i(\cdot)$ — i- , VGG-19, $I$ — .

- . . , . , . , , , .

, $X$ $\mathcal{T}_{\mathrm{X \leftarrow Y}}$ , , thin plane spline. $Y$ . , $\mathcal{T}_{\mathrm{X \leftarrow R}}$
$\mathcal{T}_{\mathrm{Y \leftarrow R}}$ . C :