Representação digital de áudio analógico. Breve programa educacional



Caros leitores, meu nome é Felix Harutyunyan. Sou estudante, violinista profissional. Neste artigo, quero compartilhar com você um trecho da minha apresentação, que apresentei na Universidade de Graz Music and Theatre sobre o tema da acústica aplicada.

Considere os aspectos teóricos da conversão de um sinal analógico (áudio) em digital.
O artigo não será abrangente, mas haverá hiperlinks no texto para um estudo mais aprofundado do tópico.

Qual é a diferença entre áudio digital e analógico?


Um sinal analógico (ou contínuo) é descrito por uma função contínua de tempo, isto é, Temuma linha contínua com um conjunto contínuo de valores possíveis (Fig. 1).

FIG. 1


Um sinal digital é um sinal que pode ser representado como uma sequência de valores digitais definidos. A qualquer momento, pode levar apenas um valor final definido (Fig. 2).

FIG. 2


O sinal analógico na faixa dinâmica pode assumir qualquer valor. Um sinal analógico é convertido para digital usando dois processos - discretização e quantização . A fila do processo não é importante.

Discretização é o processo de registrar (medir) o valor de um sinal em determinados intervalos (geralmente iguais) de tempo (Fig. 3).

FIG. 3


Quantização é o processo de dividir a faixa de amplitude do sinal em um certo número de níveis e arredondar os valores medidos durante a amostragem para o nível mais próximo (Fig. 4).

FIG. 4


A discretização interrompe o sinal no componente de tempo (verticalmente, Fig. 5, à esquerda).
A quantização leva o sinal aos valores fornecidos, ou seja, arredonda o sinal para os níveis mais próximos (horizontalmente, Fig. 5, à direita).

FIG. 5


Esses dois processos criam um tipo de sistema de coordenadas que permite descrever o sinal de áudio com um valor específico a qualquer momento.
Digital é um sinal ao qual discretização e quantização são aplicadas. A digitalização ocorre em um conversor analógico-digital (ADC) . Quanto maior o número de níveis de quantização e maior a frequência de amostragem, mais acuradamente o sinal digital corresponde ao analógico (Fig. 6).

FIG. 6


Os níveis de quantização são numerados e um código binário é atribuído a cada nível . (fig. 7)

FIG. 7


O número de bits atribuídos a cada nível de quantização é chamado profundidade de bits ou profundidade de quantização (por exemplo, profundidade de bits). Quanto maior a profundidade do bit, mais níveis podem ser representados no código binário (Fig. 8).

FIG. 8)


Essa fórmula permite calcular o número de níveis de quantização:

Se N é o número de níveis de quantização,
n é a profundidade do bit,

N=2n



Normalmente, são utilizados bits de 8, 12, 16 e 24 bits. É fácil calcular que para n = 24 o número de níveis é N = 16.777.216.

Em n = 1, o sinal de áudio se transformará em código Morse: ou há um "toque" ou não. Há também um ponto flutuante de 32 bits. Um CD de áudio compacto convencional tem capacidade para 16 bits. Quanto menor a profundidade do bit, mais valores são arredondados e maior é o erro de quantização.

Um erro de quantização é o desvio de um sinal quantizado de um analógico, isto é, diferença entre o valor de entradaX e valor quantizado X(XX)

Grandes erros de quantização resultam em distorção grave do sinal de áudio ( ruído de quantização ).

Quanto maior a profundidade do bit, mais insignificante é a quantização do erro e a melhor relação sinal / ruído ( relação sinal / ruído , SNR) e vice-versa em uma profundidade de bit baixa aumenta o ruído (Fig 9.).

FIG. 9


A profundidade de bits também determina a faixa dinâmica do sinal, ou seja, a proporção dos valores máximo e mínimo. A cada bit, a faixa dinâmica cresce cerca de 6dB ( decibéis ) (6dB é 2 vezes; ou seja, a grade se torna mais densa, a gradação aumenta).

FIG. 10. Intensidade do ruído nas profundidades de 6 e 8 bits


Erros de quantização (arredondamento) devido a um número insuficiente de níveis não podem ser corrigidos.

ruído de quantização


amplitude do sinal em 1 bit (superior) e 4 bits


Exemplo de áudio 1: SNR de 8 bits / 44,1kHz, ~ 50dB
Nota: Se os arquivos de áudio não puderem ser reproduzidos online, faça o download deles.


Exemplo de áudio 1


Exemplo de áudio 2: SNR de 4 bits / 48 kHz, ~ 25 dB


Exemplo de áudio 2


Exemplo de áudio 3: SNR de 1bit / 48kHz, ~ 8dB


Exemplo de áudio 3


Agora sobre amostragem.

Como mencionado anteriormente, essa é uma divisão vertical do sinal e a medição do valor de um valor após um determinado período de tempo. Esse intervalo é chamado de período de amostragem ou intervalo de amostragem. A taxa de amostragem , ou taxa de amostragem (a taxa de amostragem conhecida) é o valor inverso ao período de amostragem e é medida em hertz . Se
T é o período de amostragem,
F é a frequência de amostragem, então
F=1/T

Para que um sinal analógico seja convertido de volta a partir de um sinal digital (para reconstruir com precisão uma função contínua e suave a partir de um valor "pontual"), é necessário seguir o teorema de Kotelnikov (teorema de Nyquist-Shannon).

O teorema de Kotelnikov afirma:
( ) , , , .
Você conhece o número 44.1kHz? Esse é um dos padrões para a frequência de amostragem, e esse número foi escolhido precisamente porque o ouvido humano ouve apenas sinais de até 20kHz. O número 44.1 é duas vezes maior que 20, portanto, todas as frequências em um sinal digital acessível ao ouvido humano podem ser convertidas na forma analógica sem distorção.

Mas afinal 20 * 2 = 40, por que 44,1? É tudo sobre compatibilidade com os padrões PAL e NTSC . Mas hoje não consideraremos esse momento. O que acontecerá se você não seguir o teorema de Kotelnikov?

Quando existe uma frequência no sinal de áudio superior a 1/2 da frequência de amostragem, ocorre o aliasing - um efeito que leva à superposição, indistinguibilidade de vários sinais contínuos quando são amostrados.

Alias


Como pode ser visto na imagem anterior, os pontos de amostragem estão localizados tão longe um do outro que, ao interpolar (ou seja, converter os pontos discretos em um sinal analógico), uma frequência completamente diferente é restaurada por engano.

Exemplo de áudio 4: Uma frequência crescente linear de ~ 100 a 8000Hz. Frequência de amostragem - 16000Hz. Sem alias.


Análise espectral


Exemplo de áudio 5: O mesmo arquivo. Frequência de amostragem - 8000Hz. Existe um alias


Análise espectral


Exemplo:
Há material de áudio em que a frequência de pico é 2500Hz. Portanto, a frequência de amostragem deve ser selecionada pelo menos 5000Hz.


A próxima característica do áudio digital é a taxa de bits . Taxa de bits é a quantidade de dados transmitidos por unidade de tempo. A taxa de bits é geralmente medida em bits por segundo (Bit / s ou bps). A taxa de bits pode ser variável, constante ou média.

A fórmula a seguir permite calcular a taxa de bits (válida apenas para fluxos de dados não compactados):

Taxa de bits = Taxa de amostragem * Profundidade de bits * Número de canais

Por exemplo, a taxa de bits do CD de áudio pode ser calculada da seguinte forma:
44100 (taxa de amostragem) * 16 (taxa de bits) * 2 (número de canais estéreo ) = 1411200 bps = 1411,2 kbit / s

Com taxa de bits constante (CBR), a transmissão do volume do fluxo de dados por unidade de tempo não muda ao longo da transmissão. A principal vantagem é a capacidade de prever com precisão o tamanho do arquivo final. Dos pontos negativos - não a proporção ideal de tamanho / qualidade, pois a "densidade" do material de áudio durante uma peça musical muda dinamicamente.

Ao codificar com taxa de bits variável (VBR), o codec seleciona a taxa de bits com base na qualidade desejada. Como o nome indica, a taxa de bits varia sobre o arquivo de áudio codificado. Este método fornece a melhor relação qualidade / tamanho do arquivo de saída. Das desvantagens: o tamanho exato do arquivo final é muito pouco previsto.

A taxa de bits média (ABR) é um caso especial de VBR e ocupa um lugar intermediário entre a taxa de bits constante e a variável. A taxa de bits específica é definida pelo usuário. O programa ainda varia em um determinado intervalo, mas não vai além de um determinado valor médio. 

Para uma determinada taxa de bits, a qualidade do VBR geralmente é maior que o ABR. A qualidade do ABR, por sua vez, é superior a CBR: VBR> ABR> CBR.

O ABR é adequado para usuários que precisam dos benefícios da codificação VBR, mas com um tamanho de arquivo relativamente previsível. Para ABR, geralmente é necessária a codificação em 2 passagens, pois na primeira passagem o codec não sabe quais partes do material de áudio devem ser codificadas com a taxa de bits máxima.

Existem 3 métodos para armazenar material de áudio digital:

  • Dados não compactados (brutos)
  • Dados sem perdas
  • Dados compactados com perda

Formato de dados não compactado (RAW)


contém apenas uma sequência de valores binários.
É nesse formato que o material de áudio é armazenado em um CD de áudio. Um arquivo de áudio não compactado pode ser aberto, por exemplo, no Audacity. Eles têm a extensão .raw, .pcm, .sam ou não têm nenhuma extensão. O RAW não contém um cabeçalho de arquivo ( metadados ).

Outro formato para armazenar fluxo de áudio não compactado é o WAV . Ao contrário do RAW, o WAV contém um cabeçalho de arquivo.

Formatos de áudio sem perdas


O princípio da compactação é semelhante aos arquivadores (Winrar, Winzip, etc.). Os dados podem ser compactados e descompactados novamente várias vezes sem perda de informações.

Como provar que, com a compactação sem perdas, as informações realmente permanecem intocadas? Isso pode ser provado pelo método de interferência destrutiva . Tomamos duas faixas de áudio. Na primeira faixa, importamos o arquivo wav original não compactado. Na segunda faixa, importamos o mesmo arquivo de áudio, compactado sem perdas. Inverta a fase de uma das faixas (imagem em espelho). Ao reproduzir as duas faixas simultaneamente, o sinal de saída será silencioso.

Isso prova que os dois arquivos contêm informações absolutamente idênticas (Fig. 11).

FIG. onze


Codecs de compressão sem perdas: flac, WavPack, Monkey's Audio ...

Se compressão com perdas

a ênfase não está em evitar a perda de informações, mas em especulações com percepções subjetivas ( Psicoacústica ). Por exemplo, o ouvido de um adulto geralmente não percebe frequências acima de 16kHz. Usando esse fato, um codec de compactação com perdas pode simplesmente cortar todas as frequências acima de 16kHz, pois "ninguém ouvirá a diferença de qualquer maneira".

Outro exemplo é o efeito de mascaramento . Amplitudes fracas que se sobrepõem a amplitudes fortes podem ser reproduzidas com qualidade inferior. Em baixas frequências altas, as freqüências médias silenciosas não são capturadas pelo ouvido. Por exemplo, se houver som em 1kHz com um nível de volume de 80dB, o som de 2kHz com um volume de 40dB não será mais ouvido.

Isso usa o codec: o som de 2kHz pode ser removido.

Análise espectral do codec mp3 com diferentes níveis de compressão


Codecs de compactação com perdas: mp3, aac, ogg, wma, Musepack ...

Obrigado pela atenção.

UPD:
Se, por algum motivo, os arquivos de áudio não forem carregados, você poderá baixá-los aqui: cloud.mail.ru/public/HbzU/YEsT34i4c

All Articles