Revolución de la comunicación? Un nuevo enfoque le permite ahorrar ancho de banda de 100 o más veces con llamadas de audio y video



Muchas personas recuerdan que la serie Silicon Valley habla de un programador, Richard
Hendrix, quien accidentalmente ideó un revolucionario algoritmo de compresión de datos y decidió
construir su propia startup.

Los consultores de la serie incluso propusieron una métrica con la cual evaluar
tales algoritmos: el Weissman Score ficticio.

Más adelante en la trama, la startup realizó un chat de video utilizando esta solución.

Se invita a una comunidad respetada a discutir otro
principio completamente inusual de compresión de datos para llamadas de audio y video, que resuelve el problema desde un
lado nuevo e inesperado.

Si desea participar en una discusión sobre esta solución, así como descubrir qué tiene en común
conceptos con Jonathan Swift y las obras de Leo Tolstoi, por favor, bajo cat.

Poco de teoría


Describamos en términos generales cómo funciona la comunicación de audio moderna: el principio es el mismo para
llamadas a través de una red GSM, así como para mensajería instantánea y redes VOIP.

Las vibraciones de sonido se transmiten al micrófono del teléfono inteligente, luego a un convertidor de analógico a digital
(ADC o ADC): a



continuación, la codificación se realiza mediante una variedad de códecs (G711, G729, OPUS, GSM, etc.), el
cifrado se agrega o no (SRTP, ZPTP, etc.) .d.) y enviado al medio de
datos.

Por ejemplo, casi todos los mensajeros instantáneos (WhatsApp, Viber, etc.) usan los mismos códecs (recientemente es generalmente Opus) y casi los mismos
protocolos ligeramente modificados (basados ​​en SIP, WebRTC).

La red o
intranet pública de Internet y GSM también puede actuar como una red de transmisión de datos : el



cifrado es un elemento opcional en este esquema, por ejemplo, en la mayoría de los casos, el
cifrado no se utiliza para la telefonía SIP.

Pero en los mensajeros, por el contrario, generalmente usan sus
protocolos patentados para encriptar voz y video.

Luego ocurre el proceso inverso: el receptor, después de recibir los datos, decodifica la información recibida, luego la señal va al DAC (convertidor digital a analógico) y luego al amplificador de audio conectado al altavoz:



Características de los códecs modernos:

G.711 64 Kb / s.
G.726 16, 24, 32 o 40 Kbps
G.729A 8 Kb / s
GSM 13 Kb / s
iLBC 13.3 Kb / s (Trama de 30 ms); 15,2 Kb / s (Cuadro de 20 ms)
Rango Speex de 2.15 a 22.4 Kb / s.
G.722 64 Kb / s

Así, por ejemplo, durante una conversación de 7 minutos en WhatsApp o Skype, se
utilizará aproximadamente 1 MB.

Recuerde estos números: 1 MB por 7 minutos de conversación, los necesitaremos pronto.

"Leo Tolstoi como espejo ... de la revolución ..."


Recordemos la novela más famosa de este gran escritor ruso:

"Guerra y paz", la novela épica de Leo Tolstoi, que describe la
sociedad rusa en la era de las guerras contra Napoleón en 1805-1812. El epílogo de la novela lleva la
historia a 1820.

La novela "Guerra y paz" L.N. Tolstoi dedicó siete años de trabajo duro y duro. Los manuscritos de
"Guerra y paz" dan testimonio de cómo se creó una de las obras más grandes del mundo : el archivo del escritor contiene más de 5.200 hojas finamente escritas.


Si ahora desea leer esta novela, puede descargarla fácilmente.

Y este archivo pesa solo ... 1 MB: los



formatos fb2 y epub, al igual que zip, rar, pueden considerarse básicamente como una especie de
códecs.

Pensemos: ¡7 minutos de nuestra conversación en WhatsApp son iguales en volumen de tráfico a un
gran trabajo que se ha escrito durante 7 años!

La conversación de 7 minutos fue codificada por el códec opus, la novela fue codificada por ePub, el volumen es el mismo:
1 MB, ¡pero qué gran diferencia!

Viajes de Gulliver


Todos conocen este trabajo de Jonathan Swift desde la infancia, pero en realidad este libro no es para
niños.

Los viajes de Gulliver es una sátira política para adultos, por supuesto, en el contexto del siglo
XVIII.

Sorprendentemente, Swift, siendo un ardiente oponente de su otro contemporáneo,
Newton, en sus "Viajes de Gulliver" no solo predijo el descubrimiento de los satélites de
Marte (con una descripción bastante precisa de sus características), sino que también describió una forma bastante interesante
de comunicación entre las personas:

"... el proyecto requería la abolición completa de todas las palabras;
El autor de este proyecto se refirió principalmente a sus beneficios para la salud y al ahorro de
tiempo.

Después de todo, es obvio que cada palabra que pronunciamos está asociada con algo de desgaste
, , .

, ,
,
.


.

, ,
,
,
. ,
, .
, , ,
; ,
, .

,
, , ,
. , , ,
,
.

,
Como lenguaje universal entendido por todas las naciones civilizadas, los muebles y los
utensilios domésticos son iguales o muy similares en todas partes, por lo que su uso se puede entender fácilmente.
Por lo tanto, los enviados pueden hablar fácilmente con los reyes extranjeros o
ministros, cuyo idioma es completamente desconocido para ellos ...”


Por lo tanto, es probable que ya que lo que estoy llevando :)

¿Por amortiguadores de aire de transmisión (sonidos) para cientos y miles de kilómetros,
se molestan con codificación (para transmitir estas conmociones cerebrales al destinatario de la manera más precisa y eficiente posible), para mantener el ancho de banda necesario si la
carga semántica de esta transmisión es mínima o incluso tiende a cero.

Después de todo, las personas se comunican entre sí no con sonidos, sino con significado, contenido, semántica, pensamientos ...

El concepto de un nuevo sistema de comunicación es bastante simple: en el lado de la fuente y las
vibraciones de sonido también se digitalizan, pero no se transmiten inmediatamente al otro lado, sino que se
convierten en texto (Speech To Text) y luego se transmite el texto significativo del
suscriptor A, que:

  • se puede transmitir con el ancho de banda de datos mínimo requerido (incluso es posible la comunicación por radio HF, etc.)
  • se puede encriptar con cualquier algoritmo de encriptación fuerte

En el lado B, los mensajes recibidos se descifran y se reproducen como una voz del
suscriptor A (Text To Speech).

También puede descargar en el lado de B la llamada el avatar de voz del suscriptor A, que
repetiría exactamente la forma de hablar del suscriptor A.

Un canal separado puede transmitir ruidos y emociones de fondo.



Lo mismo es cierto para las comunicaciones de video; además, los elementos individuales han
existido durante mucho tiempo en las aplicaciones (varias máscaras, fondo en Zoom, etc.).

Sí, hay problemas técnicos que no se implementan completamente en este momento;
por ejemplo, la velocidad de conversión de voz a texto será crítica, pero el uso de
algoritmos de conversión de IA predictivos puede aumentar significativamente esta velocidad.

La ventaja más importante es que se requiere un ancho de banda mínimo en el medio de transmisión de datos
.

Aquellos. Este principio puede usarse no solo para las
comunicaciones cotidianas ordinarias , sino también para las fuerzas armadas y para las comunicaciones de larga distancia con largas demoras
(comunicaciones espaciales, interplanetarias: la Luna, Marte, etc. :))

Aunque esta es una descripción del concepto, en realidad es En nuestro proyecto durante varios
meses se ha utilizado un prototipo con este principio.

Pero más sobre eso la próxima vez ...

All Articles