Representación digital de audio analógico. Breve programa educativo



Estimados lectores, mi nombre es Felix Harutyunyan. Soy estudiante, violinista profesional. En este artículo quiero compartir con ustedes un extracto de mi presentación, que presenté en la Universidad de Graz Música y Teatro sobre el tema de la acústica aplicada.

Considere los aspectos teóricos de convertir una señal analógica (audio) a digital.
El artículo no será exhaustivo, pero habrá hipervínculos en el texto para seguir estudiando el tema.

¿Cuál es la diferencia entre audio digital y analógico?


Una señal analógica (o continua) se describe mediante una función continua del tiempo, es decir Tieneuna línea continua con un conjunto continuo de valores posibles (Fig. 1).

higo. 1


Una señal digital es una señal que se puede representar como una secuencia de valores digitales definidos. En cualquier momento, solo puede tomar un valor final definido (Fig. 2).

higo. 2


La señal analógica en el rango dinámico puede tomar cualquier valor. Una señal analógica se convierte a digital mediante dos procesos: discretización y cuantización . La cola del proceso no es importante.

La discretización es el proceso de registrar (medir) el valor de una señal a ciertos intervalos (generalmente iguales) de tiempo (Fig. 3).

higo. 3


La cuantización es el proceso de dividir el rango de amplitud de la señal en un cierto número de niveles y redondear los valores medidos durante el muestreo al nivel más cercano (Fig. 4).

higo. 4 4


La discretización rompe la señal en el componente de tiempo (verticalmente, Fig. 5, izquierda).
La cuantización lleva la señal a los valores dados, es decir, redondea la señal a los niveles más cercanos (horizontalmente, Fig. 5, a la derecha).

higo. 5 5


Estos dos procesos crean un tipo de sistema de coordenadas que le permite describir la señal de audio con un valor específico en cualquier momento.
Digital es una señal a la que se aplica la discretización y la cuantización. La digitalización se realiza en un convertidor analógico a digital (ADC) . Cuanto mayor sea el número de niveles de cuantificación y mayor sea la frecuencia de muestreo, más precisa será la señal digital a la analógica (Fig. 6).

higo. 6 6


Los niveles de cuantización están numerados y se asigna un código binario a cada nivel . (fig. 7)

higo. 7 7


El número de bits que se asignan a cada nivel de cuantificación se denomina profundidad de bits o profundidad de cuantificación (es decir, profundidad de bits). Cuanto mayor sea la profundidad de bits, más niveles se pueden representar en código binario (Fig. 8).

higo. 8)


Esta fórmula le permite calcular el número de niveles de cuantificación:

si N es el número de niveles de cuantización,
n es la profundidad de bits, entonces

N=2n



Típicamente, se utilizan bits de 8, 12, 16 y 24 bits. Es fácil calcular que para n = 24 el número de niveles es N = 16,777,216.

En n = 1, la señal de audio se convertirá en código Morse: hay un "golpe" o no. También hay un punto flotante de 32 bits. Un CD de audio compacto convencional tiene una capacidad de 16 bits. Cuanto menor es la profundidad de bits, más valores se redondean y mayor es el error de cuantificación.

Un error de cuantización es la desviación de una señal cuantificada de un análogo, es decir. diferencia entre el valor de entradaX y valor cuantificado X(XX)

Los errores de cuantificación grandes provocan una distorsión grave de la señal de audio ( ruido de cuantificación ).

Cuanto mayor sea la profundidad de bits, menores serán los errores de cuantificación y mejor será la relación señal / ruido (SNR), y viceversa: a baja profundidad de bits, el ruido aumenta (Fig. 9).

higo. 9 9


La profundidad de bits también determina el rango dinámico de la señal, es decir, la relación de los valores máximo y mínimo. Con cada bit, el rango dinámico crece aproximadamente 6dB ( decibelios ) (6dB es 2 veces; es decir, la cuadrícula se vuelve más densa, la gradación aumenta).

higo. 10. Intensidad de ruido a profundidades de 6 bits y 8 bits.


Los errores de cuantización (redondeo) debido a un número insuficiente de niveles no pueden corregirse.

ruido de cuantización


amplitud de señal en 1 bit (arriba) y 4 bits


Ejemplo de audio 1: 8bit / 44.1kHz, ~ 50dB SNR
Nota: Si los archivos de audio no se pueden reproducir en línea, descárguelos .


Ejemplo de audio 1


Ejemplo de audio 2: 4bit / 48kHz, ~ 25dB SNR


Audio Ejemplo 2


Ejemplo de audio 3: 1bit / 48kHz, ~ 8dB SNR


Ejemplo de audio 3


Ahora sobre el muestreo.

Como se mencionó anteriormente, esta es una división vertical de la señal y la medición del valor de un valor después de un cierto período de tiempo. Este intervalo se llama período de muestreo o intervalo de muestreo. La frecuencia de muestreo , o frecuencia de muestreo (la frecuencia de muestreo conocida) es el valor inverso al período de muestreo y se mide en hercios . Si
T es el período de muestreo,
F es la frecuencia de muestreo, entonces
F=1/T

Para que una señal analógica se convierta de nuevo a partir de una señal digital (para reconstruir con precisión una función continua y uniforme a partir de valores discretos de "punto"), se debe seguir el teorema de Kotelnikov (teorema de Nyquist-Shannon).

El teorema de Kotelnikov establece:
( ) , , , .
¿Conoces el número 44.1kHz? Este es uno de los estándares para la frecuencia de muestreo, y este número se eligió precisamente porque el oído humano solo escucha señales de hasta 20 kHz. El número 44.1 es más del doble de 20, por lo que todas las frecuencias en una señal digital accesible al oído humano se pueden convertir en forma analógica sin distorsión.

Pero 20 * 2 = 40, ¿por qué 44.1? Se trata de compatibilidad con los estándares PAL y NTSC . Pero hoy no consideraremos este momento. ¿Qué sucederá si no sigues el teorema de Kotelnikov?

Cuando se encuentra una frecuencia en una señal de audio que es superior a la mitad de la frecuencia de muestreo, se produce un aliasing , un efecto que conduce a la superposición, indistinguibilidad de varias señales continuas cuando se muestrean.

Aliasing


Como se puede ver en la imagen anterior, los puntos de muestreo están ubicados tan lejos el uno del otro que al interpolar (es decir, convertir los puntos discretos de nuevo en una señal analógica), se restablece por error una frecuencia completamente diferente.

Ejemplo de audio 4: una frecuencia que aumenta linealmente de ~ 100 a 8000Hz. Frecuencia de muestreo: 16000Hz. Sin alias.


Análisis espectral


Ejemplo de audio 5: el mismo archivo. Frecuencia de muestreo: 8000Hz. Hay alias


Análisis espectral


Ejemplo:
hay material de audio donde la frecuencia máxima es de 2500Hz. Por lo tanto, la frecuencia de muestreo debe seleccionarse al menos 5000Hz.


La siguiente característica del audio digital es la tasa de bits . La tasa de bits es la cantidad de datos transmitidos por unidad de tiempo. La velocidad de bits generalmente se mide en bits por segundo (Bit / so bps). La tasa de bits puede ser variable, constante o promediada.

La siguiente fórmula le permite calcular la velocidad de bits (válida solo para flujos de datos sin comprimir):

Velocidad de bits = Frecuencia de muestreo * Bit * Número de canales

Por ejemplo, la velocidad de bits del CD de audio se puede calcular de la siguiente manera:
44100 (frecuencia de muestreo) * 16 (bit) * 2 (número de canales, estéreo ) = 1411200 bps = 1411.2 kbit / s

Con velocidad de bits constante (CBR), la transmisión del volumen del flujo de datos por unidad de tiempo no cambia a lo largo de la transmisión. La principal ventaja es la capacidad de predecir con bastante precisión el tamaño del archivo final. De las desventajas, no es la relación óptima de tamaño / calidad, ya que la "densidad" del material de audio durante una pieza de música cambia dinámicamente.

Al codificar con velocidad de bits variable (VBR), el códec selecciona la velocidad de bits en función de la calidad deseada deseada. Como su nombre lo indica, la tasa de bits varía sobre el archivo de audio codificado. Este método proporciona la mejor relación calidad / tamaño del archivo de salida. De las desventajas: el tamaño exacto del archivo final está muy mal predicho.

La tasa de bits promedio (ABR) es un caso especial de VBR y ocupa un lugar intermedio entre la tasa de bits constante y variable. La tasa de bits específica es establecida por el usuario. El programa todavía lo varía en un cierto rango, pero no va más allá de un valor promedio dado. 

Para una tasa de bits determinada, la calidad de VBR suele ser mayor que la ABR. La calidad de ABR, a su vez, es mayor que CBR: VBR> ABR> CBR.

ABR es adecuado para usuarios que necesitan los beneficios de la codificación VBR, pero con un tamaño de archivo relativamente predecible. Para ABR, generalmente se requiere codificación en 2 pasadas, ya que en la primera pasada el códec no sabe qué partes del material de audio deben codificarse con la tasa de bits máxima.

Existen 3 métodos para almacenar material de audio digital:

  • Datos sin comprimir (sin procesar)
  • Datos sin pérdida
  • Datos comprimidos con pérdida

Formato de datos sin comprimir (RAW)


contiene solo una secuencia de valores binarios.
Es en este formato que el material de audio se almacena en un CD de audio. Se puede abrir un archivo de audio sin comprimir , por ejemplo, en Audacity. Tienen la extensión .raw, .pcm, .sam o no tienen ninguna extensión. RAW no contiene un encabezado de archivo ( metadatos ).

Otro formato para almacenar secuencias de audio sin comprimir es WAV . A diferencia de RAW, WAV contiene un encabezado de archivo.

Formatos de audio sin pérdida


El principio de compresión es similar a los archivadores (Winrar, Winzip, etc.). Los datos pueden comprimirse y descomprimirse nuevamente cualquier cantidad de veces sin pérdida de información.

¿Cómo demostrar que con una compresión sin pérdidas, la información realmente permanece intacta? Esto se puede demostrar por el método de interferencia destructiva . Tomamos dos pistas de audio. En la primera pista, importamos el archivo wav original sin comprimir. En la segunda pista, importamos el mismo archivo de audio, comprimido sin pérdidas. Invierte la fase de una de las pistas (imagen espejo). Al reproducir ambas pistas simultáneamente, la señal de salida será silenciosa.

Esto prueba que ambos archivos contienen información absolutamente idéntica (Fig. 11).

higo. once


Códecs de compresión sin pérdida: flac, WavPack, Monkey's Audio ...

Si la compresión con pérdida

El énfasis no está en evitar la pérdida de información, sino en la especulación con percepciones subjetivas ( psicoacústica ). Por ejemplo, el oído de un adulto generalmente no percibe frecuencias superiores a 16 kHz. Usando este hecho, un códec de compresión con pérdida puede simplemente cortar todas las frecuencias por encima de 16 kHz, ya que "nadie escuchará la diferencia de todos modos".

Otro ejemplo es el efecto de enmascaramiento . Las amplitudes débiles que se superponen con amplitudes fuertes se pueden reproducir con una calidad inferior. A frecuencias bajas y altas, las frecuencias medias silenciosas no son captadas por el oído. Por ejemplo, si hay sonido a 1kHz con un nivel de volumen de 80dB, entonces el sonido de 2kHz con un volumen de 40dB ya no se escucha.

Esto usa el códec: se puede eliminar el sonido de 2kHz.

Análisis espectral de códec mp3 con diferentes niveles de compresión.


Códecs de compresión con pérdida: mp3, aac, ogg, wma, Musepack ...

Gracias por su atención.

UPD:
si por alguna razón los archivos de audio no se cargan, puede descargarlos aquí: cloud.mail.ru/public/HbzU/YEsT34i4c

All Articles