Revolusi komunikasi? Pendekatan baru memungkinkan Anda menghemat bandwidth 100 kali atau lebih dengan panggilan audio dan video



Banyak orang ingat bahwa seri Silicon Valley bercerita tentang seorang programmer, Richard
Hendrix, yang secara tidak sengaja menghasilkan algoritma kompresi data revolusioner dan memutuskan untuk
membangun startup-nya sendiri.

Konsultan seri bahkan mengusulkan metrik untuk mengevaluasi
algoritma tersebut - Skor Weissman fiktif.

Selanjutnya dalam alur cerita, startup membuat obrolan video menggunakan solusi ini.

Sebuah komunitas yang terhormat diundang untuk membahas
prinsip kompresi data yang sama sekali tidak biasa untuk panggilan audio dan video, yang memecahkan masalah dari sisi baru yang
tidak terduga.

Jika Anda ingin berpartisipasi dalam diskusi tentang solusi ini, serta mencari tahu apa kesamaan ini
konsep dengan Jonathan Swift dan karya-karya Leo Tolstoy, tolong, di bawah kucing.

Sedikit teori


Mari kita gambarkan secara umum cara kerja komunikasi audio modern - prinsipnya sama untuk
panggilan melalui jaringan GSM, serta untuk pengirim pesan instan dan jaringan VOIP.

Getaran suara ditransmisikan ke mikrofon ponsel cerdas, kemudian ke konverter analog-ke-digital
(ADC atau ADC):



Selanjutnya, pengodean dilakukan oleh berbagai codec (G711, G729, OPUS, GSM, dll.),
Enkripsi ditambahkan atau tidak ditambahkan (SRTP, ZPTP, dll.). .d.) dan dikirim ke media
data.

Sebagai contoh, hampir semua messenger instan (WhatsApp, Viber, dll.) Menggunakan codec yang sama (baru-baru ini biasanya Opus), dan
protokol yang hampir dimodifikasi sedikit sama (berdasarkan SIP, WebRTC).

Internet umum dan jaringan GSM atau
intranet juga dapat bertindak sebagai jaringan transmisi data :



Enkripsi adalah elemen opsional dalam skema ini, misalnya, dalam banyak kasus,
enkripsi tidak digunakan untuk telepon SIP.

Tetapi pada kurir, sebaliknya, mereka biasanya menggunakan
protokol milik mereka untuk mengenkripsi suara dan video.

Kemudian terjadi proses sebaliknya - penerima, setelah menerima data, menerjemahkan informasi yang diterima, kemudian sinyal menuju ke DAC (digital-to-analog converter) dan kemudian pergi ke penguat suara yang terhubung ke speaker:



Karakteristik codec modern:

G.711 64 Kb / s.
G.726 16, 24, 32, atau 40 Kbps
G.729A 8 Kb / s
GSM 13 Kb / s
iLBC 13.3 Kb / s (Bingkai 30 ms); 15.2 Kb / s (20 ms frame)
Rentang Speex dari 2,15 hingga 22,4 Kb / s.
G.722 64 Kb / s

Jadi, misalnya, selama 7 menit percakapan di WhatsApp atau Skype,
sekitar 1 MB akan habis.

Ingat angka-angka ini - 1MB untuk 7 menit percakapan, kita akan membutuhkannya segera.

"Leo Tolstoy sebagai cermin ... revolusi ..."


Mari kita ingat novel paling terkenal dari penulis besar Rusia ini:

"War and Peace" - novel epik Leo Tolstoy, menggambarkan
masyarakat Rusia di era perang melawan Napoleon pada 1805-1812. Epilog novel membawa
cerita ke 1820.

Novel "War and Peace" L.N. Tolstoy mencurahkan tujuh tahun kerja keras dan keras. Naskah
“Perang dan Damai” bersaksi tentang bagaimana salah satu karya terbesar di dunia diciptakan : arsip penulis berisi lebih dari 5.200 lembar yang ditulis dengan halus.


Jika Anda sekarang ingin membaca novel ini, maka dapat dengan mudah diunduh.

Dan file ini beratnya hanya ... 1 MB:



Format fb2 dan epub, seperti zip, rar, pada dasarnya dapat dianggap sebagai semacam
codec.

Mari kita pikirkan - 7 menit percakapan kami di WhatsApp memiliki volume lalu lintas yang sama dengan
karya hebat yang telah ditulis selama 7 tahun!

Percakapan selama 7 menit disandikan oleh opus codec, novel itu disandikan oleh ePub, volumenya sama -
1MB, tapi betapa besar perbedaannya!

perjalanan si Gulliver


Semua orang tahu karya Jonathan Swift ini sejak kecil, tetapi kenyataannya buku ini bukan untuk
anak - anak.

Gulliver's Travels adalah sindiran politik untuk orang dewasa, tentu saja dalam konteks
abad ke - 18 .

Mengejutkan bahwa Swift, yang menjadi lawan kuat dari kontemporernya yang lain,
Newton, dalam Gulliver's Travels tidak hanya meramalkan penemuan satelit
Mars (dengan deskripsi karakteristik mereka yang cukup akurat), tetapi juga menggambarkan
cara komunikasi yang agak menarik antara orang-orang:

“... proyek diperlukan penghapusan total semua kata;
penulis proyek ini merujuk terutama pada manfaat kesehatannya dan penghematan
waktu.

Bagaimanapun, jelas bahwa setiap kata yang kita ucapkan dikaitkan dengan beberapa keausan
, , .

, ,
,
.


.

, ,
,
,
. ,
, .
, , ,
; ,
, .

,
, , ,
. , , ,
,
.

,
sebagai bahasa universal yang dipahami oleh semua negara beradab, karena perabot dan
peralatan rumah tangga adalah sama atau sangat mirip di mana-mana, sehingga penggunaannya dapat dengan mudah dipahami.
Dengan demikian, utusan dapat dengan mudah berbicara dengan raja atau
menteri asing , yang bahasanya sama sekali tidak dikenal oleh mereka ... "


Jadi, Anda mungkin sudah tahu apa yang saya pimpin :)

Mengapa mengirimkan kejutan udara (suara) selama ratusan dan ribuan kilometer,
repot-repot dengan pengkodean (untuk mengirimkan gegar udara ini ke penerima dengan seakurat dan seefisien mungkin), untuk menjaga bandwidth yang diperlukan jika
beban semantik dari transmisi ini minimal, atau bahkan cenderung nol?

Lagi pula, orang berkomunikasi satu sama lain bukan dengan suara, tetapi dengan makna, konten, semantik, pemikiran ...

Konsep sistem komunikasi baru cukup sederhana - di sisi sumber Dan
getaran suara juga didigitalkan, tetapi tidak ditransmisikan segera ke sisi lain, tetapi
dikonversi ke teks (Pidato Ke Teks) dan kemudian teks yang bermakna dari
pelanggan A dikirimkan , yang:

  • dapat ditransmisikan dengan bandwidth data minimum yang diperlukan (bahkan komunikasi radio HF, dll. adalah mungkin)
  • dapat dienkripsi dengan algoritma enkripsi yang kuat

Di sisi B, pesan yang diterima didekripsi dan diputar sebagai suara dari
pelanggan A (Text To Speech).

Anda juga dapat mengunduh di sisi B yang disebut avatar suara pelanggan A, yang akan
mengulangi cara bicara pelanggan A.

saluran yang terpisah dapat mengirimkan suara dan emosi latar belakang.



Semua yang sama berlaku untuk komunikasi video - apalagi, masing-masing elemen sudah lama
ada dalam aplikasi (berbagai topeng, latar belakang di Zoom, dll.).

Ya, ada masalah teknis yang tidak sepenuhnya diimplementasikan sekarang -
misalnya, kecepatan konversi Ucapan Ke Teks akan sangat penting, tetapi menggunakan
algoritme konversi AI prediktif, kecepatan ini dapat ditingkatkan secara signifikan.

Keuntungan yang paling penting adalah bahwa bandwidth minimum diperlukan dalam media transmisi data
.

Itu prinsip ini dapat digunakan tidak hanya untuk
komunikasi sehari-hari biasa , tetapi juga untuk militer dan untuk komunikasi jarak jauh dengan penundaan yang lama
(komunikasi ruang angkasa, antarplanet - Bulan, Mars, dll.)

Meskipun ini adalah deskripsi konsep, sebenarnya dalam proyek kami selama beberapa
bulan prototipe dengan prinsip ini telah digunakan.

Tetapi lebih banyak tentang hal itu lain kali ...

All Articles