Revolução da comunicação? Uma nova abordagem permite economizar largura de banda de 100 ou mais vezes com chamadas de áudio e vídeo



Muitas pessoas lembram que a série do Vale do Silício fala de um programador, Richard
Hendrix, que acidentalmente criou um algoritmo revolucionário de compactação de dados e decidiu
criar sua própria startup.

Os consultores da série até propuseram uma métrica com a qual avaliar
tais algoritmos - o fictício Weissman Score.

Mais adiante, a startup fez um bate-papo por vídeo usando esta solução.

Uma comunidade respeitada é convidada a discutir outro
princípio completamente incomum de compactação de dados para chamadas de áudio e vídeo, que resolve o problema de um
lado novo e inesperado.

Se você deseja participar de uma discussão sobre esta solução, bem como descobrir o que isso tem em comum
conceitos com Jonathan Swift e os trabalhos de Leo Tolstoy, por favor, sob cat.

Pouco de teoria


Descreveremos em termos gerais como a comunicação de áudio moderna funciona - o princípio é o mesmo para
chamadas em uma rede GSM, bem como para mensageiros instantâneos e redes VOIP.

As vibrações sonoras são transmitidas para o microfone do smartphone e depois para um conversor analógico-digital
(ADC ou ADC): a



seguir, a codificação é realizada por vários codecs (G711, G729, OPUS, GSM etc.), a
criptografia é adicionada ou não (SRTP, ZPTP, etc.). .d.) e enviados ao suporte de
dados.

Por exemplo, quase todos os mensageiros instantâneos (WhatsApp, Viber, etc.) usam os mesmos codecs (recentemente geralmente é Opus) e quase os mesmos
protocolos ligeiramente modificados (com base no SIP, WebRTC).

A Internet pública e a rede ou
intranet GSM também podem atuar como uma rede de transmissão de dados : A



criptografia é um elemento opcional nesse esquema; por exemplo, na maioria dos casos, a
criptografia não é usada para telefonia SIP.

Mas nos mensageiros, pelo contrário, eles geralmente usam seus
protocolos proprietários para criptografar voz e vídeo.

Em seguida, ocorre o processo inverso - o destinatário, depois de receber os dados, decodifica as informações recebidas, o sinal passa para o DAC (conversor digital-analógico) e depois para o amplificador de som conectado ao alto-falante:



Características dos codecs modernos:

G.711 64 Kb / s.
G.726 16, 24, 32 ou 40 Kbps
G.729A 8 Kb / s
GSM 13 Kb / s
iLBC 13,3 Kb / s (Quadro de 30 ms); 15,2 Kb / s (Quadro de 20 ms)
Speex Varia de 2,15 a 22,4 Kb / s.
G.722 64 Kb / s

Assim, por exemplo, durante uma conversa de 7 minutos no WhatsApp ou Skype,
cerca de 1 MB será usado.

Lembre-se desses números - 1 MB por 7 minutos de conversa, precisaremos deles em breve.

"Leo Tolstoi como um espelho ... da revolução ..."


Lembremos o romance mais famoso deste grande escritor russo:

"Guerra e Paz" - o romance épico de Leo Tolstoi, descrevendo a
sociedade russa na era das guerras contra Napoleão em 1805-1812. O epílogo do romance traz a
história para 1820.

O romance "Guerra e Paz" L.N. Tolstoi dedicou sete anos de trabalho duro e duro.Os manuscritos de
"Guerra e Paz" testemunham como uma das maiores obras do mundo foi criada : mais de 5200 folhas finamente escritas foram preservadas no arquivo do escritor.


Se você deseja ler este romance agora, ele pode ser baixado facilmente.

E esse arquivo pesa apenas ... 1 MB:



Os formatos fb2 e epub, assim como zip, rar, podem basicamente ser considerados como uma espécie de
codecs.

Vamos pensar - 7 minutos da nossa conversa no WhatsApp são iguais em volume de tráfego a um
ótimo trabalho que foi escrito por 7 anos!

A conversa de 7 minutos foi codificada pelo codec opus, o romance foi codificado pelo ePub, o volume é o mesmo -
1 MB, mas que diferença enorme!

As Viagens de Gulliver


Todo mundo conhece esse trabalho de Jonathan Swift desde a infância, mas, na verdade, este livro não é para
crianças.

As Viagens de Gulliver são uma sátira política para adultos, é claro no contexto do
século XVIII .

É surpreendente que Swift, sendo um oponente ardente de seu outro contemporâneo,
Newton, em suas Viagens de Gulliver, não apenas tenha previsto a descoberta dos satélites de
Marte (com uma descrição bastante precisa de suas características), mas também tenha descrito uma
maneira bastante interessante de comunicação entre as pessoas:

“... o projeto exigia a completa abolição de todas as palavras;
o autor deste projeto se referia principalmente a seus benefícios à saúde e economia de
tempo.

Afinal, é óbvio que cada palavra que pronunciamos está associada a algum desgaste
, , .

, ,
,
.


.

, ,
,
,
. ,
, .
, , ,
; ,
, .

,
, , ,
. , , ,
,
.

,
como uma linguagem universal entendida por todas as nações civilizadas, pois móveis e
utensílios domésticos são iguais ou muito semelhantes em todos os lugares, de modo que seu uso pode ser facilmente compreendido.
Assim, os enviados pode facilmente falar com reis ou estrangeiros
ministros, cuja língua é completamente desconhecido para eles ...”


Então, você provavelmente já sabe o que eu estou levando :)

Por choques de ar de transmissão (sons) para centenas e milhares de quilómetros,
incomoda com codificação (para transmitir essas concussões aéreas ao destinatário da maneira mais precisa e eficiente possível), para manter a largura de banda necessária, se a
carga semântica dessa transmissão for mínima, ou mesmo tende a zero?

Afinal, as pessoas se comunicam não com sons, mas com significado, conteúdo, semântica, pensamentos ...

O conceito de um novo sistema de comunicação é bastante simples - do lado da fonte E as
vibrações sonoras também são digitalizadas, mas não transmitidas imediatamente para o outro lado, mas
convertidas em texto (Fala em texto) e, em seguida, é transmitido o texto significativo do
assinante A, que:

  • pode ser transmitido com a largura de banda de dados mínima exigida (até a comunicação via rádio HF, etc. é possível)
  • pode ser criptografado com qualquer algoritmo de criptografia forte

No lado B, as mensagens recebidas são descriptografadas e reproduzidas como uma voz do
assinante A (Text To Speech).

Você também pode baixar no lado de B o chamado o avatar de voz do assinante A, que repetiria
exatamente a maneira de falar do assinante A.

Um canal separado pode transmitir ruídos e emoções de segundo plano.



O mesmo se aplica às comunicações por vídeo - além disso, elementos individuais existem há muito
tempo nas aplicações (várias máscaras, segundo plano no Zoom etc.).

Sim, há problemas técnicos que não estão totalmente implementados no momento -
por exemplo, a velocidade de conversão de fala em texto será crítica, mas o uso de
algoritmos preditivos de conversão de IA pode aumentar significativamente essa velocidade.

A vantagem mais importante é que é necessária uma largura de banda mínima no meio de transmissão de dados
.

Essa. esse princípio pode ser usado não apenas nas
comunicações cotidianas comuns , mas também nas comunicações militares e de longa distância com atrasos
(comunicações espaciais, interplanetárias - Lua, Marte etc.).

Embora essa seja uma descrição do conceito, é realmente em nosso projeto por vários
meses, um protótipo com esse princípio foi usado.

Mas mais sobre isso da próxima vez ...

All Articles