Digitale Darstellung von analogem Audio. Kurzes Bildungsprogramm



Liebe Leserinnen und Leser, ich heiße Felix Harutyunyan. Ich bin Student, professioneller Geiger. In diesem Artikel möchte ich Ihnen einen Auszug aus meiner Präsentation vorstellen, die ich an der Universität Graz Musik und Theater zum Thema angewandte Akustik vorgestellt habe.

Berücksichtigen Sie die theoretischen Aspekte der Umwandlung eines analogen (Audio-) Signals in ein digitales.
Der Artikel wird nicht vollständig sein, aber der Text enthält Hyperlinks zur weiteren Untersuchung des Themas.

Was ist der Unterschied zwischen digitalem und analogem Audio ?


Ein analoges (oder Kontinuums-) Signal wird durch eine kontinuierliche Funktion der Zeit beschrieben, d.h. Es hateine durchgehende Linie mit einem durchgehenden Satz möglicher Werte (Abb. 1).

Feige. 1


Ein digitales Signal ist ein Signal, das als Folge definierter digitaler Werte dargestellt werden kann. Zu jedem Zeitpunkt kann nur ein bestimmter Endwert angenommen werden (Abb. 2).

Feige. 2


Das analoge Signal im Dynamikbereich kann einen beliebigen Wert annehmen. Ein analoges Signal wird mit zwei Prozessen in digital umgewandelt - Diskretisierung und Quantisierung . Die Prozesswarteschlange ist nicht wichtig.

Bei der Diskretisierung wird der Wert eines Signals in bestimmten (normalerweise gleichen) Zeitintervallen aufgezeichnet (gemessen) (Abb. 3).

Feige. 3


Bei der Quantisierung wird der Signalamplitudenbereich in eine bestimmte Anzahl von Pegeln unterteilt und die während der Abtastung gemessenen Werte auf den nächsten Pegel gerundet (Abb. 4).

Feige. 4


Die Diskretisierung unterbricht das Signal in der Zeitkomponente (vertikal, Abb. 5, links).
Durch die Quantisierung wird das Signal auf die angegebenen Werte gebracht, dh das Signal wird auf die ihm am nächsten liegenden Pegel gerundet (horizontal, Abb. 5, rechts).

Feige. 5


Diese beiden Prozesse erzeugen eine Art Koordinatensystem, mit dem Sie das Audiosignal jederzeit mit einem bestimmten Wert beschreiben können.
Digital ist ein Signal, auf das Diskretisierung und Quantisierung angewendet werden. Die Digitalisierung erfolgt in einem Analog-Digital-Wandler (ADC) . Je größer die Anzahl der Quantisierungspegel und je höher die Abtastfrequenz ist, desto genauer entspricht das digitale Signal dem analogen (Abb. 6).

Feige. 6


Quantisierungsebenen werden nummeriert und jeder Ebene wird ein Binärcode zugewiesen . (Abb. 7)

Feige. 7


Die Anzahl der Bits, die jeder Quantisierungsebene zugewiesen sind, wird als Bittiefe oder Quantisierungstiefe (dt. Bittiefe) bezeichnet. Je höher die Bittiefe, desto mehr Ebenen können im Binärcode dargestellt werden (Abb. 8).

Feige. 8.


Mit dieser Formel können Sie die Anzahl der Quantisierungsstufen berechnen:

Wenn N die Anzahl der Quantisierungsstufen ist, ist
n die Bittiefe

N=2n



Typischerweise werden Bits mit 8, 12, 16 und 24 Bits verwendet. Es ist leicht zu berechnen, dass für n = 24 die Anzahl der Ebenen N = 16.777.216 beträgt.

Bei n = 1 verwandelt sich das Audiosignal in Morsecode: Entweder gibt es ein "Klopfen" oder nicht. Es gibt auch ein 32-Bit-Gleitkomma. Eine herkömmliche kompakte Audio-CD hat eine Kapazität von 16 Bit. Je geringer die Bittiefe ist, desto mehr Werte werden gerundet und desto größer ist der Quantisierungsfehler.

Ein Quantisierungsfehler ist die Abweichung eines quantisierten Signals von einem Analogon, d.h. Differenz zwischen EingabewertX und quantisierter Wert X(XX)

Große Quantisierungsfehler führen zu einer starken Verzerrung des Audiosignals ( Quantisierungsrauschen ).

Je höher die Bittiefe ist, desto unbedeutender ist die Fehlerquantisierung und das bessere Signal / Rausch-Verhältnis (Signal-Rausch-Verhältnis, SNR) und umgekehrt bei geringer Bittiefe wächst das Rauschen (Abb. 9.).

Feige. 9


Die Bittiefe bestimmt auch den Dynamikbereich des Signals, dh das Verhältnis der Maximal- und Minimalwerte. Mit jedem Bit wächst der Dynamikbereich um etwa 6 dB ( Dezibel ) (6 dB sind zweimal; das heißt, das Gitter wird dichter, die Abstufung nimmt zu).

Feige. 10. Rauschintensität bei Bittiefen von 6 Bit und 8 Bit


Quantisierungsfehler (Rundungsfehler) aufgrund einer unzureichenden Anzahl von Ebenen können nicht korrigiert werden.

Quantisierungsrauschen


Signalamplitude bei 1 Bit (oben) und 4 Bit


Audiobeispiel 1: 8 Bit / 44,1 kHz, ~ 50 dB SNR
Hinweis: Wenn Audiodateien nicht online abgespielt werden können, laden Sie sie bitte herunter .


Audiobeispiel 1


Audiobeispiel 2: 4 Bit / 48 kHz, ~ 25 dB SNR


Audiobeispiel 2


Audiobeispiel 3: 1 Bit / 48 kHz, ~ 8 dB SNR


Audiobeispiel 3


Nun zur Probenahme.

Wie bereits erwähnt, handelt es sich hierbei um eine vertikale Aufteilung des Signals und das Messen des Werts eines Werts nach einer bestimmten Zeitspanne. Dieses Intervall wird als Abtastperiode oder Abtastintervall bezeichnet. Die Abtastrate oder Abtastrate (die bekannte Abtastrate) ist der zur Abtastperiode inverse Wert und wird in Hertz gemessen . Wenn
T die Abtastperiode ist, ist
F die Abtastfrequenz
F=1/T

Um für ein analoges Signal umgewandelt werden wieder von einem digitalen Signal (um genau ein kontinuierlichen zu rekonstruieren und die Funktion von einem diskreten glatten, „Punkt“ Wert), muss man folgt der Kotelnikov (- Shannon Nyquist - Theorem) Satz.

Kotelnikovs Theorem besagt:
( ) , , , .
Kennen Sie die Nummer 44,1 kHz? Dies ist einer der Standards für die Abtastfrequenz, und diese Zahl wurde genau deshalb gewählt, weil das menschliche Ohr nur Signale bis zu 20 kHz hört. Die Zahl 44.1 ist mehr als doppelt so groß wie 20, sodass alle Frequenzen in einem für das menschliche Ohr zugänglichen digitalen Signal ohne Verzerrung in analoge Form umgewandelt werden können.

Aber immerhin 20 * 2 = 40, warum 44.1? Es geht um die Kompatibilität mit PAL- und NTSC-Standards . Aber heute werden wir diesen Moment nicht berücksichtigen. Was passiert, wenn Sie dem Satz von Kotelnikov nicht folgen?

Wenn das Audiosignal eine Frequenz enthält, die höher als die Hälfte der Abtastfrequenz ist, tritt Aliasing auf - ein Effekt, der zur Überlagerung und Ununterscheidbarkeit verschiedener kontinuierlicher Signale führt, wenn sie abgetastet werden.

Aliasing


Wie aus dem vorherigen Bild ersichtlich ist, sind die Abtastpunkte so weit voneinander entfernt, dass beim Interpolieren (d. H. Umwandeln der diskreten Punkte zurück in ein analoges Signal) versehentlich eine völlig andere Frequenz wiederhergestellt wird.

Audiobeispiel 4: Eine linear ansteigende Frequenz von ~ 100 bis 8000 Hz. Abtastfrequenz - 16000Hz. Kein Aliasing.


Spektralanalyse


Audiobeispiel 5: Dieselbe Datei. Abtastfrequenz - 8000Hz. Es gibt Aliasing


Spektralanalyse


Beispiel:
Es gibt Audiomaterial mit einer Spitzenfrequenz von 2500 Hz. Daher muss die Abtastfrequenz mindestens 5000 Hz gewählt werden.


Das nächste Merkmal von digitalem Audio ist die Bitrate . Bitrate ist die Datenmenge, die pro Zeiteinheit übertragen wird. Die Bitrate wird normalerweise in Bit pro Sekunde (Bit / s oder bps) gemessen. Die Bitrate kann variabel, konstant oder gemittelt sein.

Mit der folgenden Formel können Sie die Bitrate berechnen (gilt nur für unkomprimierte Datenströme):

Bitrate = Abtastrate * Bittiefe * Anzahl der Kanäle

Die Audio-CD-Bitrate kann beispielsweise wie folgt berechnet werden:
44100 (Abtastrate) * 16 (Bitrate) * 2 (Anzahl der Kanäle, Stereo) ) = 1411200 bps = 1411,2 kbit / s

Bei konstanter Bitrate (CBR) ändert sich die Übertragung des Volumens des Datenstroms pro Zeiteinheit während der Übertragung nicht. Der Hauptvorteil ist die Fähigkeit, die Größe der endgültigen Datei ziemlich genau vorherzusagen. Von den Minuspunkten - nicht das optimale Verhältnis von Größe / Qualität, da sich die "Dichte" des Audiomaterials während eines Musikstücks dynamisch ändert.

Bei der Codierung mit variabler Bitrate (VBR) wählt der Codec die Bitrate basierend auf der gewünschten gewünschten Qualität aus. Wie der Name schon sagt, variiert die Bitrate über die codierte Audiodatei. Diese Methode bietet das beste Verhältnis von Qualität zu Größe der Ausgabedatei. Von den Minuspunkten: Die genaue Größe der endgültigen Datei wird sehr schlecht vorhergesagt.

Die durchschnittliche Bitrate (ABR) ist ein Sonderfall von VBR und liegt zwischen konstanter und variabler Bitrate. Die spezifische Bitrate wird vom Benutzer festgelegt. Das Programm variiert immer noch in einem bestimmten Bereich, geht jedoch nicht über einen bestimmten Durchschnittswert hinaus. 

Bei einer bestimmten Bitrate ist die VBR-Qualität normalerweise höher als die ABR. Die Qualität von ABR ist wiederum höher als die von CBR: VBR> ABR> CBR.

ABR eignet sich für Benutzer, die die Vorteile der VBR-Codierung benötigen, jedoch eine relativ vorhersehbare Dateigröße haben. Für ABR ist normalerweise eine Codierung in 2 Durchgängen erforderlich, da der Codec beim ersten Durchgang nicht weiß, welche Teile des Audiomaterials mit der maximalen Bitrate codiert werden sollen.

Es gibt 3 Methoden zum Speichern von digitalem Audiomaterial:

  • Nicht komprimierte (Roh-) Daten
  • Verlustfreie Daten
  • Verlustbehaftete komprimierte Daten

Nicht komprimiertes (RAW) Datenformat


enthält nur eine Folge von Binärwerten.
In diesem Format wird Audiomaterial auf einer Audio-CD gespeichert. Eine unkomprimierte Audiodatei kann beispielsweise in Audacity geöffnet werden. Sie haben die Erweiterung .raw, .pcm, .sam oder überhaupt keine Erweiterung. RAW enthält keinen Dateikopf ( Metadaten ).

Ein anderes Format zum Speichern von unkomprimiertem Audiostream ist WAV . Im Gegensatz zu RAW enthält WAV einen Dateikopf.

Verlustfreie Audioformate


Das Komprimierungsprinzip ähnelt Archivierern (Winrar, Winzip usw.). Daten können beliebig oft ohne Informationsverlust komprimiert und wieder dekomprimiert werden.

Wie kann man beweisen, dass bei verlustfreier Komprimierung die Informationen wirklich unberührt bleiben? Dies kann durch die Methode der destruktiven Interferenz bewiesen werden . Wir nehmen zwei Audiospuren. Im ersten Track importieren wir die ursprüngliche, unkomprimierte WAV-Datei. In der zweiten Spur importieren wir dieselbe Audiodatei, verlustfrei komprimiert. Invertieren Sie die Phase einer der Spuren (Spiegelbild). Wenn Sie beide Titel gleichzeitig abspielen, ist das Ausgangssignal stumm.

Dies zeigt, dass beide Dateien absolut identische Informationen enthalten (Abb. 11).

Feige. elf


Verlustfreie Komprimierungscodecs: flac, WavPack, Monkey's Audio ...

Bei verlustbehafteter Komprimierung

Der Schwerpunkt liegt nicht auf der Vermeidung von Informationsverlust, sondern auf Spekulationen mit subjektiven Wahrnehmungen ( Psychoakustik ). Beispielsweise nimmt das Ohr eines Erwachsenen normalerweise keine Frequenzen über 16 kHz wahr. Mit dieser Tatsache kann ein verlustbehafteter Komprimierungscodec einfach alle Frequenzen über 16 kHz hart abschneiden, da "sowieso niemand den Unterschied hören wird".

Ein weiteres Beispiel ist der Maskierungseffekt . Schwache Amplituden, die sich mit starken Amplituden überlappen, können mit geringerer Qualität reproduziert werden. Bei lauten tiefen Frequenzen werden leise Mittenfrequenzen nicht vom Ohr erfasst. Wenn beispielsweise Ton mit 1 kHz und einer Lautstärke von 80 dB zu hören ist, ist kein Ton mit 2 kHz und einer Lautstärke von 40 dB mehr zu hören.

Dies verwendet den Codec: 2kHz-Sound kann entfernt werden.

Spektralanalyse von MP3-Codec mit unterschiedlichen Komprimierungsstufen


Verlustbehaftete Komprimierungscodecs: mp3, aac, ogg, wma, Musepack ...

Vielen Dank für Ihre Aufmerksamkeit.

UPD:
Wenn die Audiodateien aus irgendeinem Grund nicht geladen werden, können Sie sie hier herunterladen: cloud.mail.ru/public/HbzU/YEsT34i4c

All Articles