Révolution de la communication? Une nouvelle approche vous permet d'économiser 100 fois plus de bande passante avec les appels audio et vidéo



Beaucoup de gens se souviennent que la série Silicon Valley parle d'un programmeur, Richard
Hendrix, qui a accidentellement mis au point un algorithme de compression de données révolutionnaire et a décidé de
créer sa propre startup.

Les consultants de la série ont même proposé une métrique avec laquelle évaluer de
tels algorithmes - le score de Weissman fictif.

Plus loin dans l'intrigue, la startup a fait un chat vidéo en utilisant cette solution.

Une communauté respectée est invitée à discuter d'un autre
principe , tout à fait inhabituel , de compression des données pour les appels audio et vidéo, qui résout le problème d'un nouveau
côté inattendu.

Si vous souhaitez participer à une discussion sur cette solution, ainsi que découvrir ce qu'elle a en commun
concepts avec Jonathan Swift et les œuvres de Léon Tolstoï, s'il vous plaît, sous cat.

Un peu de théorie


Décrivons en termes généraux le fonctionnement de la communication audio moderne - le principe est le même pour les
appels sur un réseau GSM, ainsi que pour les messageries instantanées et les réseaux VOIP.

Les vibrations sonores sont transmises au microphone du smartphone, puis à un convertisseur analogique-numérique
(ADC ou ADC):



Ensuite, l'encodage est effectué par une variété de codecs (G711, G729, OPUS, GSM, etc.), le
chiffrement est ajouté ou non ajouté (SRTP, ZPTP, etc.) .d.) et envoyé au support de
données.

Par exemple, presque tous les messageries instantanées (WhatsApp, Viber, etc.) utilisent les mêmes codecs (récemment c'est généralement Opus), et presque les mêmes
protocoles légèrement modifiés (basés sur SIP, WebRTC).

Le réseau public Internet et GSM ou
intranet peut également servir de réseau de transmission de données : le



chiffrement est un élément facultatif de ce schéma, par exemple, dans la plupart des cas, le
chiffrement n'est pas utilisé pour la téléphonie SIP.

Mais dans les messagers, au contraire, ils utilisent généralement leurs
protocoles propriétaires pour crypter la voix et la vidéo.

Ensuite, le processus inverse se produit - le destinataire, après avoir reçu les données, décode les informations reçues, puis le signal va au DAC (convertisseur numérique-analogique), puis à l'amplificateur audio connecté au haut-parleur:



Caractéristiques des codecs modernes:

G.711 64 Kb / s.
G.726 16, 24, 32 ou 40 Kbps
G.729A 8 Kb / s
GSM 13 Ko / s
iLBC 13,3 Kb / s (Trame de 30 ms); 15,2 Ko / s (Trame de 20 ms)
Plage de Speex de 2,15 à 22,4 Kb / s.
G.722 64 Kb / s

Ainsi, par exemple, lors d'une conversation de 7 minutes sur WhatsApp ou Skype,
environ 1 Mo sera utilisé.

Rappelez-vous ces chiffres - 1 Mo pour 7 minutes de conversation, nous en aurons bientôt besoin.

"Léon Tolstoï comme miroir ... de révolution ..."


Rappelons le roman le plus célèbre de ce grand écrivain russe:

«Guerre et paix» - le roman épique de Léon Tolstoï, décrivant la
société russe à l'époque des guerres contre Napoléon en 1805-1812. L'épilogue du roman ramène l'
histoire à 1820.

Le roman "Guerre et paix" L.N. Tolstoï a consacré sept années de dur labeur et les manuscrits de
«Guerre et paix» témoignent de la création d'une des plus grandes œuvres du monde : plus de 5200 feuilles finement écrites ont été conservées dans les archives de l'écrivain.


Si vous voulez maintenant lire ce roman, il peut être facilement téléchargé.

Et ce fichier ne pèse que ... 1 Mo:



Les formats fb2 et epub, tout comme zip, rar, peuvent fondamentalement être considérés comme une sorte de
codecs.

Pensons - 7 minutes de notre conversation sur WhatsApp sont égales en volume de trafic à un
excellent travail qui a été écrit pendant 7 ans!

La conversation pendant 7 minutes a été encodée par le codec opus, le roman a été encodé par ePub, le volume est le même -
1 Mo, mais quelle différence énorme!

les voyages de Gulliver


Tout le monde connaît cette œuvre de Jonathan Swift depuis son enfance, mais en fait ce livre n'est pas pour les
enfants.

Gulliver’s Travels est une satire politique pour adultes, bien sûr dans le contexte du XVIIIe
siècle.

Étonnamment, Swift, étant un ardent adversaire de son autre contemporain,
Newton, dans ses «Voyages de Gulliver», a non seulement prédit la découverte des satellites de
Mars (avec une description assez précise de leurs caractéristiques), mais a également décrit un
moyen de communication plutôt intéressant entre les gens:

«... le projet requis l'abolition complète de tous les mots;
l'auteur de ce projet a principalement évoqué ses bienfaits pour la santé et son gain de
temps.

Après tout, il est évident que chaque mot que nous prononçons est associé à une certaine usure
, , .

, ,
,
.


.

, ,
,
,
. ,
, .
, , ,
; ,
, .

,
, , ,
. , , ,
,
.

,
en tant que langage universel compris par toutes les nations civilisées, car les meubles et les
ustensiles de ménage sont identiques ou très similaires partout, de sorte que son utilisation peut être facilement comprise.
Ainsi, les envoyés peuvent facilement parler avec des rois ou des
ministres étrangers , dont la langue leur est complètement inconnue ... »


Donc, vous devinez probablement déjà ce que je dirige :)

Pourquoi transmettre des chocs aériens (sons) sur des centaines et des milliers de kilomètres,
dérangez avec encodage (afin de transmettre ces commotions aériennes au destinataire aussi précisément et efficacement que possible), pour conserver la bande passante nécessaire, si la
charge sémantique de cette transmission est minimale, voire tend vers zéro?

Après tout, les gens communiquent non pas avec des sons, mais avec du sens, du contenu, de la sémantique, des pensées ...

Le concept d'un nouveau système de communication est assez simple - du côté source Et les
vibrations sonores sont également numérisées, mais pas transmises immédiatement de l'autre côté, mais
converties en texte (Speech To Text) puis le texte significatif de l'
abonné A est transmis , ce qui:

  • peut être transmis avec la bande passante de données minimale requise (même une communication radio HF, etc. est possible)
  • peut être chiffré avec n'importe quel algorithme de chiffrement fort

Côté B, les messages reçus sont déchiffrés et lus en tant que voix de l'
abonné A (Text To Speech).

Vous pouvez également télécharger sur le côté de B soi-disant l'avatar vocal de l'abonné A, qui
répéterait exactement la manière de parler de l'abonné A.

Un canal séparé peut transmettre des bruits de fond et des émotions.



Il en va de même pour les communications vidéo - de plus, les éléments individuels
existent depuis longtemps dans les applications (masques divers, arrière-plan en Zoom, etc.).

Oui, il y a des problèmes techniques qui ne sont pas entièrement implémentés en ce moment -
par exemple, la vitesse de conversion Speech To Text sera critique, mais en utilisant
des algorithmes de conversion AI prédictifs, vous pouvez augmenter considérablement cette vitesse.

L'avantage le plus important est qu'une bande passante minimale est requise dans le support de transmission de données
.

Ceux. ce principe peut être utilisé non seulement pour les
communications quotidiennes ordinaires , mais aussi pour les communications militaires et à longue distance avec des retards importants
(communications spatiales, interplanétaires - la Lune, Mars, etc. :))

Bien qu'il s'agisse d'une description du concept, c'est en fait dans notre projet depuis plusieurs
mois un prototype avec ce principe a été utilisé.

Mais plus à ce sujet la prochaine fois ...

All Articles