Représentation numérique de l'audio analogique. Bref programme éducatif



Chers lecteurs, je m'appelle Felix Harutyunyan. Je suis étudiante, violoniste professionnelle. Dans cet article, je souhaite partager avec vous un extrait de ma présentation, que j'ai présentée à l'Université de Graz Musique et Théâtre sur le thème de l'acoustique appliquée.

Considérez les aspects théoriques de la conversion d'un signal analogique (audio) en numérique.
L'article ne sera pas complet, mais il y aura des hyperliens dans le texte pour une étude plus approfondie du sujet.

Quelle est la différence entre l'audio numérique et l'analogique?


Un signal analogique (ou continu) est décrit par une fonction continue du temps, c'est-à-dire Il aune ligne continue avec un ensemble continu de valeurs possibles (Fig. 1).

figure. 1


Un signal numérique est un signal qui peut être représenté comme une séquence de valeurs numériques définies. À tout moment, il ne peut prendre qu'une seule valeur finale définie (Fig. 2).

figure. 2


Le signal analogique dans la plage dynamique peut prendre n'importe quelle valeur. Un signal analogique est converti en numérique en utilisant deux processus: la discrétisation et la quantification . La file d'attente de processus n'est pas importante.

La discrétisation est le processus d'enregistrement (mesure) de la valeur d'un signal à certains intervalles (généralement égaux) de temps (Fig. 3).

figure. 3


La quantification est le processus consistant à diviser la plage d'amplitude du signal en un certain nombre de niveaux et à arrondir les valeurs mesurées pendant l'échantillonnage au niveau le plus proche (Fig. 4).

figure. 4


La discrétisation rompt le signal dans la composante temporelle (verticalement, Fig. 5, à gauche).
La quantification amène le signal aux valeurs données, c'est-à-dire qu'il arrondit le signal aux niveaux les plus proches (horizontalement, figure 5, à droite).

figure. 5


Ces deux processus créent une sorte de système de coordonnées qui vous permet de décrire le signal audio avec une valeur spécifique à tout moment.
Le numérique est un signal auquel la discrétisation et la quantification sont appliquées. La numérisation a lieu dans un convertisseur analogique-numérique (ADC) . Plus le nombre de niveaux de quantification est élevé et plus la fréquence d'échantillonnage est élevée, plus le signal numérique correspond exactement au signal analogique (Fig. 6).

figure. 6


Les niveaux de quantification sont numérotés et un code binaire est attribué à chaque niveau . (fig.7)

figure. 7


Le nombre de bits attribués à chaque niveau de quantification est appelé profondeur de bits ou profondeur de quantification (eng. Profondeur de bits). Plus la profondeur de bits est élevée, plus les niveaux peuvent être représentés en code binaire (Fig. 8).

figure. 8.


Cette formule vous permet de calculer le nombre de niveaux de quantification:

si N est le nombre de niveaux de quantification,
n est la profondeur de bits, alors

N=2n



En règle générale, des bits de 8, 12, 16 et 24 bits sont utilisés. Il est facile de calculer que pour n = 24, le nombre de niveaux est N = 16 777 216.

À n = 1, le signal audio se transformera en code Morse: soit il y a un «coup» ou pas. Il y a aussi une virgule flottante 32 bits. Un CD audio compact conventionnel a une capacité de 16 bits. Plus la profondeur de bits est faible, plus les valeurs sont arrondies et plus l'erreur de quantification est importante.

Une erreur de quantification est l'écart d'un signal quantifié par rapport à un analogique, c'est-à-dire différence entre la valeur d'entréeX et valeur quantifiée X(XX)

De grandes erreurs de quantification entraînent une grave distorsion du signal audio ( bruit de quantification ).

Plus la profondeur de bits est élevée, plus les erreurs de quantification sont faibles et meilleur est le rapport signal / bruit (SNR), et vice versa: à faible profondeur de bits, le bruit augmente (Fig.9).

figure. 9


La profondeur de bits détermine également la plage dynamique du signal, c'est-à-dire le rapport des valeurs maximale et minimale. Avec chaque bit, la plage dynamique augmente d'environ 6 dB ( décibels ) (6 dB correspond à 2 fois; autrement dit, la grille devient plus dense, la gradation augmente).

figure. 10. Intensité du bruit à des profondeurs de 6 bits et 8 bits


Les erreurs de quantification (arrondi) dues à un nombre insuffisant de niveaux ne peuvent pas être corrigées.

bruit de quantification


amplitude du signal à 1 bit (haut) et 4 bits


Exemple audio 1: 8 bits / 44,1 kHz, ~ 50 dB SNR
Remarque: Si les fichiers audio ne peuvent pas être lus en ligne, veuillez les télécharger .


Exemple audio 1


Exemple audio 2: 4 bits / 48 kHz, ~ 25 dB SNR


Exemple audio 2


Exemple audio 3: 1 bit / 48 kHz, ~ 8 dB SNR


Exemple audio 3


Maintenant sur l'échantillonnage.

Comme mentionné précédemment, il s'agit d'une division verticale du signal et de la mesure de la valeur d'une valeur après un certain laps de temps. Cet intervalle est appelé période d'échantillonnage ou intervalle d'échantillonnage. Le taux d'échantillonnage , ou taux d'échantillonnage (le taux d'échantillonnage bien connu) est la valeur inverse de la période d'échantillonnage et est mesuré en hertz . Si
T est la période d'échantillonnage,
F est la fréquence d'échantillonnage, alors
F=1/T

Pour qu'un signal analogique soit reconverti à partir d'un signal numérique (pour reconstruire avec précision une fonction continue et régulière à partir d'une valeur discrète de "point"), il faut suivre le théorème de Kotelnikov (théorème de Nyquist - Shannon).

Le théorème de Kotelnikov déclare:
( ) , , , .
Connaissez-vous le nombre 44,1 kHz? C'est l'une des normes de fréquence d'échantillonnage, et ce nombre a été choisi précisément parce que l'oreille humaine n'entend que des signaux jusqu'à 20 kHz. Le nombre 44,1 est plus de deux fois plus grand que 20, de sorte que toutes les fréquences d'un signal numérique accessible à l'oreille humaine peuvent être converties sous forme analogique sans distorsion.

Mais 20 * 2 = 40, pourquoi 44,1? Tout est question de compatibilité avec les normes PAL et NTSC . Mais aujourd'hui, nous ne considérerons pas ce moment. Que se passera-t-il si vous ne suivez pas le théorème de Kotelnikov?

Lorsqu'une fréquence est trouvée dans un signal audio qui est supérieure à la moitié de la fréquence d'échantillonnage, un repliement se produit - un effet qui conduit à la superposition, à l'indiscernabilité de divers signaux continus lorsqu'ils sont échantillonnés.

Aliasing


Comme on peut le voir sur l'image précédente, les points d'échantillonnage sont situés si loin les uns des autres que lors de l' interpolation (c'est-à-dire la conversion des points discrets en un signal analogique), une fréquence complètement différente est restaurée par erreur.

Exemple audio 4: une fréquence qui augmente linéairement de ~ 100 à 8000 Hz. Fréquence d'échantillonnage - 16000 Hz. Pas d'alias.


Analyse spectrale


Exemple audio 5: le même fichier. Fréquence d'échantillonnage - 8000 Hz. Il y a un alias


Analyse spectrale


Exemple:
il existe du matériel audio dont la fréquence de crête est de 2500 Hz. Par conséquent, la fréquence d'échantillonnage doit être sélectionnée au moins 5000 Hz.


La prochaine caractéristique de l'audio numérique est le débit binaire . Le débit binaire est la quantité de données transmises par unité de temps. Le débit binaire est généralement mesuré en bits par seconde (Bit / s ou bps). Le débit binaire peut être variable, constant ou moyen.

La formule suivante vous permet de calculer le débit binaire (valable uniquement pour les flux de données non compressés):

Débit binaire = Taux d'échantillonnage * Bit * Nombre de canaux

Par exemple, le débit binaire Audio-CD peut être calculé comme suit:
44100 (taux d'échantillonnage) * 16 (bit) * 2 (nombre de canaux, stéréo ) = 1411200 bps = 1411,2 kbit / s

Avec un débit binaire constant (CBR), la transmission du volume du flux de données par unité de temps ne change pas tout au long de la transmission. Le principal avantage est la possibilité de prédire assez précisément la taille du fichier final. Parmi les inconvénients - pas le rapport optimal taille / qualité, car la "densité" du matériel audio pendant un morceau de musique change dynamiquement.

Lors d'un codage à débit binaire variable (VBR), le codec sélectionne le débit binaire en fonction de la qualité souhaitée souhaitée. Comme son nom l'indique, le débit varie sur le fichier audio encodé. Cette méthode donne le meilleur rapport qualité / taille du fichier de sortie. Parmi les inconvénients: la taille exacte du fichier final est très mal prédite.

Le débit moyen (ABR) est un cas particulier du VBR et prend une place intermédiaire entre le débit constant et le débit variable. Le débit binaire spécifique est défini par l'utilisateur. Le programme le fait encore varier dans une certaine fourchette, mais n'excède pas une valeur moyenne donnée. 

Pour un débit donné, la qualité VBR est généralement supérieure à ABR. La qualité de l'ABR, à son tour, est supérieure à celle du CBR: VBR> ABR> CBR.

ABR convient aux utilisateurs qui ont besoin des avantages de l'encodage VBR, mais avec une taille de fichier relativement prévisible. Pour ABR, l'encodage en 2 passes est généralement requis, car lors de la première passe, le codec ne sait pas quelles parties du matériel audio doivent être encodées avec le débit binaire maximum.

Il existe 3 méthodes pour stocker du matériel audio numérique:

  • Données non compressées (brutes)
  • Données sans perte
  • Données compressées avec perte

Format de données non compressé (RAW)


contient juste une séquence de valeurs binaires.
C'est dans ce format que le matériel audio est stocké sur un CD audio. Un fichier audio non compressé peut être ouvert, par exemple, dans Audacity. Ils ont l'extension .raw, .pcm, .sam ou n'ont aucune extension. RAW ne contient pas d'en-tête de fichier ( métadonnées ).

Un autre format pour stocker le flux audio non compressé est WAV . Contrairement à RAW, WAV contient un en-tête de fichier.

Formats audio sans perte


Le principe de compression est similaire aux archiveurs (Winrar, Winzip, etc.). Les données peuvent être compressées et décompressées à nouveau un nombre illimité de fois sans perte d'informations.

Comment prouver qu'avec la compression sans perte, les informations restent vraiment intactes? Cela peut être prouvé par la méthode des interférences destructives . Nous prenons deux pistes audio. Dans la première piste, nous importons le fichier wav original non compressé. Dans la deuxième piste, nous importons le même fichier audio, compressé sans perte. Inversez la phase d'une des pistes (image miroir). Lors de la lecture simultanée des deux pistes, le signal de sortie sera silencieux.

Cela prouve que les deux fichiers contiennent des informations absolument identiques (Fig. 11).

figure. Onze


Codecs de compression sans perte: flac, WavPack, Monkey's Audio ...

Si compression avec perte

l'accent n'est pas mis sur la prévention de la perte d'informations, mais sur la spéculation avec des perceptions subjectives ( psychoacoustique ). Par exemple, l'oreille d'un adulte ne perçoit généralement pas de fréquences supérieures à 16 kHz. En utilisant ce fait, un codec de compression avec perte peut simplement couper durement toutes les fréquences supérieures à 16 kHz, car "personne n'entendra la différence de toute façon."

Un autre exemple est l'effet de masquage . Des amplitudes faibles qui se chevauchent avec des amplitudes fortes peuvent être reproduites avec une qualité inférieure. Aux basses fréquences fortes, les fréquences moyennes silencieuses ne sont pas captées par l'oreille. Par exemple, s'il y a du son à 1 kHz avec un niveau de volume de 80 dB, alors le son de 2 kHz avec un volume de 40 dB n'est plus entendu.

Il utilise le codec: le son à 2 kHz peut être supprimé.

Analyse spectrale de codec mp3 avec différents niveaux de compression


Codecs de compression avec perte: mp3, aac, ogg, wma, Musepack ...

Merci de votre attention.

UPD:
Si pour une raison quelconque les fichiers audio ne se chargent pas, vous pouvez les télécharger ici: cloud.mail.ru/public/HbzU/YEsT34i4c

All Articles