Ketika saya mendengar kata-kata "memulihkan jaringan saraf", saya memanjat untuk memeriksa cadangan

Selain menjadi spesialis IT, saya juga seorang sejarawan teknologi, dan inilah yang menentukan reaksi saya terhadap berita tentang pencapaian terbaru di bidang teknologi digital. Sebulan yang lalu, saya memutuskan untuk mulai menulis buku untuk orang-orang yang jauh dari TI dan dekat dengan penelitian dan sumber sejarah ("Studi sumber digital - masalah khusus " ditulis di situs buku konsep), di mana saya akan memberi tahu mereka apa perkembangan teknologi digital yang berubah bagi mereka. .

Beberapa hari setelah itu, berita melintas melalui Internet: "Kedatangan kereta" ditingkatkan dengan bantuan jaringan saraf - film 1896 sekarang dapat ditonton dalam 4K dan 60 frame per detik ", dan ini adalah alasan yang baik untuk memberi tahu orang-orang IT tentang hal yang sama.

Saya tidak punya film asli "Arrival of the Train," jadi saya menggunakan foto-foto modern (dikurangi atau dihitamkan) + foto dari tahun 1930-an (mungkin) sebagai sampel uji

Ketika saya mendengar kata-kata "memulihkan jaringan saraf", saya memanjat untuk memeriksa cadangan

0. Apa masalahnya?


Masalah yang akan dibahas muncul karena bagaimana tepatnya sejarawan nyata dan jaringan saraf bekerja.

Menurut orang awam, sejarawan ideal duduk secara eksklusif di arsip dan bekerja dengan dokumen resmi dan terpelihara dengan baik. Pada kenyataannya, sejarawan bekerja dengan sumber-sumber yang mereka miliki dan dalam bentuk di mana mereka datang kepada mereka.

Pada kenyataannya, di samping dokumen resmi di arsip negara, foto pribadi, surat, memoar, dll dapat berfungsi sebagai sumber. Sayangnya, sejarawan sangat sering bekerja bukan dengan dokumen sumber, tetapi dengan berbagai salinan.

Pernahkah Anda mendengar ungkapan bahwa berbagai ikon dan teks “telah sampai kepada kita di daftar”? Dalam hal ini, kata "daftar" tidak berarti katalog di mana beberapa karya disebutkan, tetapi salinan dari karya itu sendiri. Istilah ini berasal dari kata "write off".

Banyak teks, foto, dan film telah sampai kepada kita dalam bentuk salinan, dan tidak ada jaminan bahwa satu-satunya salinan film “Tujuh Belas Momen Musim Semi” yang telah mencapai sejarawan masa depan tidak akan hanya berupa versi yang dicat dan dipotong. Untuk jalur sumber sejarah tidak dapat dipahami.

Di sisi lain, ada banyak berita bahwa jaringan saraf telah memulihkan atau meningkatkan sesuatu. Kedengarannya seperti semacam sihir dan banyak yang merasa bahwa semacam kecerdasan buatan benar-benar dapat memulihkan sesuatu.

Bahkan, tentang pemulihan warna atau detail dalam gambar kecil tidak berbicara dan tidak bisa pergi. Program hanya menambahkan elemen ke foto atau video yang algoritmanya tentukan sesuai kebutuhan.

Sayangnya, pada kenyataannya tidak mungkin untuk mengembalikan gambar yang hilang, karena operasi pemutihan tidak dapat dipulihkan, dan jika sebuah foto tidak memiliki bagian dari gambar, maka tidak dapat dipulihkan hanya berdasarkan foto yang sama.

Oleh karena itu, jaringan saraf melakukan hal yang persis sama dengan yang dilakukan orang dalam kasus seperti itu - mereka berfantasi berdasarkan pengalaman mereka.

Dan sekarang saya akan menunjukkan apa yang diperoleh sebagai hasil dari fantasi ini.

1. Perbandingan berbagai layanan pewarnaan


Meskipun mewarnai foto dan film bukanlah fenomena yang sepenuhnya baru, sekarang sudah tersedia untuk semua orang yang memiliki akses Internet, dan banyak orang memanfaatkan peluang baru ini.

Kita sudah hidup di dunia di mana ada banyak foto lukisan prajurit Perang Patriotik Hebat, interior Titanic, keluarga kerajaan dan banyak lainnya.

Tampaknya bagi orang yang belum tahu bahwa itu adalah pertanyaan untuk mengembalikan warna asli, dan bahwa foto berwarna menunjukkan kepada kita bagaimana orang dan benda dari seratus tahun yang lalu terlihat. Berdasarkan foto-foto ini, seseorang dapat mulai menarik kesimpulan tentang kehidupan orang-orang di masa lalu, menganalisis berbagai peristiwa dan situasi.
Dan meskipun saya memahami ketidakmungkinan mengembalikan warna asli dari foto hitam putih, sebagai peneliti saya harus memeriksa dan memastikan bahwa saya benar.

Untuk menguji ide ini, saya mengambil dua foto berwarna modern, memutihkannya dalam editor grafis, dan membawanya melalui layanan pewarnaan online.

1.1 Pewarnaan mobil Ford A Phaeton


Dalam hal ini, saya menggunakan foto yang saya ambil pada akhir Januari 2020 di Bandara Moscow Domodedovo. Saya tidak tahu bagaimana pewarnaan mobil-mobil ini sesuai dengan warna aslinya, tetapi itu tidak masalah. Dalam percobaan ini, kami memeriksa seberapa akurat warna foto yang diputihkan akan dipulihkan.

Pewarnaan mobil Ford A Phaeton

Saya melakukan percobaan ini pada foto-foto mobil yang berbeda dan hasilnya tidak berubah: semua layanan cat mobil nyata berbeda, tetapi tidak ada yang melukis dengan benar.

Pada saat yang sama, saya pribadi lebih suka bukan versi aslinya, tetapi hasil pewarnaan dari deepai.org - warna tubuh yang tenang dengan sisi atap yang biru. (Tetapi dalam versi iniwarna asli ditampilkan dalam garis-garis bernomor 2 dan 7, tapi saya suka strip 5 diwarnai oleh algoritmia.com , di mana bagian berwarna kuning dan bagian merah).

Masalah dengan pewarnaan mobil dijelaskan dengan sangat sederhana - data tertanam di setiap jaringan saraf. Dan dengan cara yang sama seperti pewarnaan manual, pewarnaan otomatis menunjukkan dengan tepat berdasarkan pengalaman apa pewarnaan itu dibuat.

Artinya, tidak ada pertanyaan tentang pemulihan warna asli pidato dan tidak bisa pergi.

Tentu saja, ada orang yang mengatakan bahwa Anda perlu mengunggah lebih banyak foto ke jaringan saraf dan kemudian semuanya akan baik-baik saja, tetapi ini bertentangan dengan prinsip jaringan saraf - mereka hanya rata-rata data yang dimuat ke dalamnya dan tidak dapat melampaui "pengalaman" yang diperoleh dengan cara ini.

1.2


Percobaan berikutnya adalah dengan foto yang memperlihatkan arsitektur dan banyak orang dengan pakaian berwarna. Foto asli dipotong, dihitamkan, dan diunggah ke layanan pewarnaan.

Pewarnaan air mancur di VDNH

Karena banyaknya objek yang akan dicat, hasilnya tidak semudah seperti halnya Ford A Phaeton.

Ya, tidak ada layanan yang melukis patung-patung itu dalam warna emas, tulip merah di bagian bawah gambar, dan t-shirt hijau terang dan biru cerah. Namun, semua layanan dengan gemilang mengatasi lukisan kaos putih seorang pria yang duduk di tembok air mancur dan blus putih seorang wanita berjalan dari kanan ke kiri dengan tas tangan di sisinya.

Dengan demikian, kami sekali lagi memiliki hasil yang sepenuhnya dapat diprediksi - layanan pewarnaan tidak dapat mengembalikan warna yang sebenarnya.

Tetapi manfaat dari contoh ini adalah tidak mengulangi fakta yang jelas lagi. Tentu saja, mengulangi fakta yang jelas itu perlu dan sangat benar, tetapi ada satu hal lagi.

Bonus dari 9may.mail.ru


Selain pewarnaan, layanan 9may.mail.ru melakukan "pemecahan masalah" operasi. Jika Anda membandingkan hanya foto berwarna dan foto berwarna yang cacatnya dihapus, Anda akan menemukan fitur yang sangat menarik.

Bonus dari 9may.mail.ru

Ilustrasi ini menunjukkan fragmen tepi kanan foto yang diperbesar dengan air mancur. Seperti yang dapat Anda lihat dengan jelas, selama "penghapusan cacat", elemen pahatan telah dihapus (saya tidak akan berani menyebutkan namanya :))

Mirip "penghapusan cacat" juga terlihat di foto-foto lain yang diwarnai oleh 9may.mail.ru, tetapi ada ini bukan penghapusan yang begitu besar.

Dengan demikian, sumber sejarah tidak hanya dilukis secara tidak benar, tetapi juga memiliki "pertengkaran" yang menghancurkan sebagian gambar (yang kembali membawa kita kembali ke pertanyaan "Digital wear and tear ”)

Contoh ini memungkinkan Anda untuk melanjutkan dengan lancar ke bagian selanjutnya dari kisah tentang dampak“ peningkatan ”foto pada jaringan saraf pada sumber-sumber historis.

2. Peningkatan ukuran foto


Serta pewarnaan, pembesaran foto ada di era pra-digital.

Hasilnya untuk kedua kasus adalah sama, kita mulai melihat elemen minimum foto. Dalam fotografi analog itu adalah "biji-bijian", sekarang tempatnya diambil oleh "piksel", tetapi mereka memiliki satu esensi - itu adalah elemen minimum yang tidak dapat dibagi (saya benar-benar ingin mengatakan "atom", tetapi meskipun namanya - atomnya tidak dapat dibagi :))

Jika kita melihat pada papan catur di perangkat optik pembesar (teleskop, teropong, dll.), maka kita dapat "memperbesar" itu dan melihat detail yang sebelumnya tidak terlihat.

Tetapi jika kita memotret papan catur sehingga muat dalam satu butir / piksel, maka tidak ada cara untuk "memperbesar" dan melihat setiap sel secara terpisah. Saat memperbesar gambar seperti itu, kita akan melihat tempat satu warna besar di mana papan catur seharusnya berada.

Situasi yang persis sama akan terjadi jika kita mengubah ukuran piksel dari foto digital papan catur - informasi tentang sel di papan catur akan hilang, dan tidak ada cara untuk mengembalikannya hanya berdasarkan foto yang sama.

Secara umum, saya merasa canggung dalam mengatakan ide yang lumrah ini, tetapi, seperti yang diperlihatkan oleh praktik, gagasan irreversibilitas dalam mengurangi fotografi digital tidak jelas bagi semua orang.

Dari waktu ke waktu, muncul berita bahwa beberapa jaringan saraf telah meningkatkan dan memperbaiki foto lama, jadi sekarang kita dapat melihat detail yang tidak dapat kita lihat sebelumnya.

Sama seperti dalam hal pewarnaan, saya mencoba menerapkan layanan online ke foto asli.

2.1 Pabrik tidak dikenal dari tahun 1930-an


Suatu hari, pada Sabtu malam, seorang rekan mengirimi saya tautan ke sebuah foto di halaman Arsip Negara Perm di Vkontakte . 1024 x 705 piksel yang telah mengalami kompresi JPEG beberapa kali, dengan label yang tidak dapat dibaca.

Unknown Mill dari tahun 1930-an

Kami bersenang-senang, memecahkan teka-teki ini dan pada hari Senin ia mengkonfirmasi temuan kami dengan pergi ke arsip dan mempelajari foto aslinya.

Ini memungkinkan saya untuk melakukan percobaan dan melihat kemampuan jaringan saraf.

Pabrik tidak dikenal dari tahun 1930-an - perbandingan

Sebagai hasilnya, opsi yang paling mudah dibaca adalah “peningkatan sederhana” (secara umum, saya membaca tulisan ini hanya dengan memperbesarnya di layar smartphone).

biz.mail.ru membuat label tidak dapat dibaca pada skala tinggi, tetapi baris "Acme Road Mach Co" tetap dapat dibaca sebagian pada skala tertentu.

Para pelamar yang tersisa membuat keributan sehingga prasasti itu berhenti dibaca sama sekali. Meskipun sebagian tetap dikenali.

Artinya, layanan untuk "meningkatkan foto" melakukan sebaliknya - mereka memperburuk foto asli.

Dan jika Anda mengatakan bahwa memperbaiki prasasti pada foto-foto lama bukanlah tugas untuk layanan seperti itu, maka saya akan setuju, karena justru inilah masalahnya. Faktanya adalah bahwa ada layanan ini, mereka diposisikan sebagai layanan untuk "restorasi" dan "restorasi", tanpa menjelaskan kepada pengguna risiko dan konsekuensi yang terkait dengan teknologi yang digunakan. Orang-orang yang mempelajari sejarah keluarga mereka atau daerah mereka dapat "meningkatkan" foto digital mereka.

Dan saya memiliki keraguan besar bahwa mereka semua akan dengan hati-hati menyimpan foto asli yang belum diperbaiki.

Saya punya satu contoh lagi yang terkait dengan arsip Perm dan atribusi foto, tetapi itu akan ada dalam pembaruan berikutnya dari Studi Sumber Digital , dan sekarang saya lebih suka untuk kembali ke mesin yang saya foto di Domodedovo.

2.2 Hood Lorraine-Dietrich B36


Untuk memeriksa kemungkinan memperbesar foto, saya mengambil salah satu foto saya, mengurangi ukuran piksel dari 4000 menjadi 3000 menjadi 1024 menjadi 768, dan berkendara melalui layanan yang sama seperti dalam kasus foto pabrik dari contoh sebelumnya.

Lorraine-Dietrich B36

Dan jika pemirsa biasa dari gambar yang "ditingkatkan" seperti itu tidak benar-benar melihatnya, maka saya tertarik pada detail kecil.

Hood Lorraine-Dietrich B36

Hasilnya sudah bisa ditebak.

Logo pada grill radiator dapat dikenali, tetapi terdistorsi - garisnya menjadi rata.

Lubang ventilasi samping dihaluskan dan tidak dapat dibedakan dari silau pada kap mesin.

Sangat diharapkan, banyak detail kecil menghilang, tetapi contoh ini sama sekali tidak ada di sini untuk sekali lagi mengkonfirmasi gagasan irreversibilitas kehilangan informasi dari foto digital sambil mengurangi ukuran pikselnya.

Jika Anda hati-hati melihat foto-foto itu, Anda sudah melihat tanda-tanda bahwa jaringan saraf telah bekerja di sini.

Bonus dari letsenhance.io


Inilah saatnya untuk mengingat bagaimana jaringan saraf bekerja - memilih opsi yang sesuai dari "pengalaman" mereka sendiri yang diperoleh sebagai hasil pelatihan.

Dan sekarang saya akan menunjukkan bagaimana persis memungkinkanenhance.io meningkat 4 kali foto, yang sebelumnya saya berkurang 4 kali.

Di sebelah kiri Anda melihat foto asli sebelum reduksi, di sebelah kanan - diperoleh setelah pembesaran. (Foto reduksi menengah tidak ditampilkan)

Bonus dari letsenhance.io

Ya, itu benar - ini adalah wajah monyet.

Dan jika Anda melihat dalam kasus lucu ini, masalah melatih jaringan saraf atau penyalahgunaannya, maka saya melihat hal yang sama sekali berbeda. Yaitu, sejumlah besar foto digital yang telah dan akan "diperbaiki" oleh jaringan saraf dan akan masuk ke sirkulasi. Beberapa dari mereka akan mengganti yang asli berdasarkan kehilangan mereka.

Dan jika sebelum mulai menulis artikel ini saya baru menyadari masalah yang terkait dengan mode untuk meningkatkan / mengembalikan gambar menggunakan jaringan saraf, sekarang masalah ini telah menemukan wajahnya yang spesifik.

Tapi ini bukan akhir dari cerita.

3. Peningkatan jumlah bingkai dalam video


Untuk mendapatkan film, tidak cukup hanya memiliki satu gambar besar dan berwarna-warni. Seharusnya ada banyak gambar seperti itu dan mereka harus saling mengganti dengan sangat cepat.

Salah satu cara untuk memperbaiki film adalah dengan meningkatkan kecepatan gambar-gambar ini saling menggantikan. Atau, karena itu benar untuk menyebutnya, "peningkatan laju bingkai".

Dan dalam hal ini juga, tidak ada yang baru. Sama seperti dalam kasus perubahan warna dan pengurangan ukuran piksel, tidak ada cara untuk mendapatkan informasi tentang apa yang terjadi di antara bingkai.

Dapat diasumsikan bagaimana subjek bergerak dalam bingkai dan menyelesaikannya pada bingkai yang baru ditambahkan, tetapi, seperti dalam kasus pewarnaan dan pembesaran, itu akan menjadi penyelesaian detail baru, dan bukan pemulihan apa yang sebenarnya terjadi.

Ini paling baik diilustrasikan oleh bidikan dari demo jaringan saraf DAIN . (Dilihat dari deskripsi untuk video "Arrival of a train" yang disebutkan sebelumnya, jaringan saraf inilah yang digunakan oleh penulisnya untuk meningkatkan frame rate)

Meningkatkan jumlah bingkai dalam video

Berikut ini adalah perbandingan 3 opsi untuk meningkatkan frame rate dari 12 fps menjadi 24 fps.

Bingkai kiri atas adalah video asli.
Bagian kanan bawah adalah hasil DAIN.
Dua sisanya adalah solusi yang dibuat oleh pencipta DAIN sendiri.

Seperti yang Anda lihat, dalam ketiga kasus peningkatan laju bingkai, kami mencoba menemukan keadaan rata-rata antara dua bingkai. Terlepas dari kenyataan bahwa opsi DAIN (bingkai kanan bawah) terlihat lebih tajam daripada opsi SepConv dan ToFlow, tetap menunjukkan bagaimana kemeja di bagian belakang dan kepala dioleskan.

Dan bahkan ketika teknologi bergerak maju dan tidak akan ada noda seperti itu, ini tidak akan mengubah situasi dengan fakta bahwa tidak mungkin untuk mengembalikan apa yang terjadi di antara frame, dan semua yang tersisa bagi kita adalah untuk menyusun semacam keadaan rata-rata.

Kesimpulan


Sebagai spesialis IT, saya mengerti bahwa teknologi ini tidak dirancang untuk melindungi sumber digital dengan benar. Jaringan saraf diperlukan untuk menghasilkan konten yang indah dan mudah tergelincir.

Oleh karena itu, film diwarnai, dipangkas dan mereka meningkatkan laju bingkai.

Ini hanya bisnis pertunjukan, dan penulis teknologi tidak boleh peduli tentang bagaimana pengguna menggunakan pengembangan mereka.

Tapi, sebagai sejarawan, saya melihat hasil dari menggunakan teknologi ini. Peningkatan jumlah foto dan film "ditingkatkan oleh jaringan saraf" akan menyebabkan mereka menjadi bahan yang digunakan sebagai sumber sejarah dalam berbagai studi. Fenomena bersamaan akan menyebabkan mencuci versi file lama dan mengubah salinan "ditingkatkan" menjadi yang hanya tersedia (hai, " Digital Wear ").

Proses ini tidak dapat dihentikan, tetapi pendekatan dapat dikembangkan untuk meminimalkan kerusakan. Sebenarnya, ini adalah apa buku tentang studi sumber digital , dan ini ditujukan khusus pada rekan-rekan saya di bengkel sejarah, dan bukan pada spesialis industri TI.

Meskipun, ada cara yang dapat diakses oleh semua orang, terlepas dari profesi, untuk berhenti memanggil proses pembuatan konten media yang mudah dicerna dengan kata-kata "restorasi" dan "restorasi", sehingga tidak menciptakan kesan yang salah di antara yang belum tahu tentang esensi dari proses ini dan produk yang dihasilkan.

Ada kata lain untuk ini:
, , . -, , . (, ); , . , , . , ( ) , , . , - - — , (. ). , , , , . Jika R. membatasi dirinya hanya untuk mengoreksi ketidakharmonisan ini, perannya seharusnya diakui sangat diinginkan dan bermanfaat.

(Pilihan berani adalah milikku).

Kamus Ensiklopedis Brockhaus and Efron: Volume XXVIA, ​​hlm. 624

Diterbitkan di RIBUAN DELAPAN RATUSAN DAN SEMBILAN-SEMBILAN.

Seperti yang Anda lihat, masalah ini tidak diketahui selama milenium pertama dan relevan bahkan pada saat penampilan film asli "Arrival of the train".

All Articles