模拟音频的数字表示。简短的教育计划



亲爱的读者,我叫Felix Harutyunyan。我是学生,专业小提琴家。在本文中,我想与您分享我的演讲摘录,我在格拉茨大学音乐与戏剧学院就应用声学的主题作了演讲。

考虑将模拟(音频)信号转换为数字的理论方面。
本文不会很全面,但是文本中会存在用于进一步研究该主题的超链接。

数字音频和模拟音频有什么区别


模拟(或连续)信号由时间的连续函数来描述,即 它有具有连续可能值集的连续线(图1)。

图。1个


数字信号是可以表示为定义的数字值序列的信号。在任何给定时间,它只能采用一个确定的最终值(图2)。

图。2


动态范围内的模拟信号可以采用任何值。模拟信号通过离散化量化两个过程转换为数字信号进程队列并不重要。

离散化是以一定时间间隔(通常相等)记录(测量)信号值的过程(图3)。

图。3


量化是将信号幅度范围划分为一定数量的水平并将采样期间测量的值四舍五入到最接近水平的过程(图4)。

图。4


离散化会破坏时间分量中的信号(垂直,图5,左)。
量化使信号达到给定值,即,将信号四舍五入到最接近它的电平(水平,图5,右边)。

图。5


这两个过程创建了一种坐标系,可让您随时描述具有特定值的音频信号。
数字是对其应用离散化和量化的信号。数字化在模数转换器(ADC)中进行量化级数量越多,采样频率越高,数字信号与模拟信号相对应的精度就越高(图6)。

图。6


对量化级别进行编号,并为每个级别分配一个二进制代码(图7)

图。7


分配给每个量化级别的位数称为位数深度或量化深度(英文位深度)。位深度越高,可以用二进制代码表示更多的级别(图8)。

图。8。


此公式使您可以计算量化级别数:

如果N是量化级别数,
n是位深度,则

N=2n



通常,使用8、12、16和24位的位。很容易计算出,对于n = 24,级别数为N = 16,777,216。

在n = 1时,音频信号将转换为摩尔斯电码:是否存在“敲门声”。还有一个32位浮点。传统的小型音频CD的容量为16位。位深度越低,舍入的值越多,量化误差也越大。

量化误差是量化信号与模拟信号的偏差,即 输入值之间的差异X 和量化值 XXX

大的量化误差会导致音频信号严重失真(量化噪声)。

位深度越大,量化误差越小,更好的信号底噪比(SNR),且反之亦然:在低的位深度,噪声增加(图9)。

图。9


位深度还决定了信号动态范围,即最大值和最小值之比。每一位,动态范围增加约6dB(分贝)(6dB是2倍;也就是说,网格变得更密,层次增加)。

图。10. 6位和8位的位深度处的噪声强度


由于电平数量不足而导致的量化(舍入)误差无法纠正。

量化噪声


1位(顶部)和4位信号幅度


音频示例1:8位/ 44.1kHz,〜50dB SNR
注意:如果无法在线播放音频文件,请下载它们。


音频示例1


音频示例2:4位/ 48kHz,〜25dB SNR


音频示例2


音频示例3:1bit / 48kHz,〜8dB SNR


音讯范例3


现在开始取样。

如前所述,这是信号的垂直分割,并在特定时间段后测量值的值。该间隔称为采样周期或采样间隔。采样率采样率(众所周知的采样率)是与采样周期成反比的值,单位为赫兹如果
T为采样周期,
F为采样频率,则
F=1/T

为了将模拟信号从数字信号转换(从离散的“点”值准确地重建连续且平滑的函数),必须遵循Kotelnikov定理(Nyquist – Shannon定理)。

科特尔尼科夫定理指出:
( ) , , , .
你知道数字44.1kHz吗?这是采样频率的标准之一,之所以选择此数字,是因为人耳只能听到高达20kHz的信号。数字44.1大于20的两倍,因此人耳可访问的数字信号中的所有频率都可以以模拟形式转换而不会失真。

但是毕竟20 * 2 = 40,为什么是44.1?都是关于与PALNTSC标准的兼容性但是今天我们不会考虑这一刻。如果您不遵循科特尔尼科夫定理,将会发生什么?

当在音频信号中发现一个高于采样频率1/2的频率时,便会出现混叠现象-导致对各种连续信号进行采样时产生叠加,不可区分的影响。

混叠


从上一张照片可以看出,采样点之间的距离非常远,以至于在进行插值(即将离散点转换回模拟信号)时,会完全恢复完全不同的频率。

音频示例4:从〜100到8000Hz线性增加的频率。采样频率-16000Hz。无别名。


光谱分析


音频示例5:同一文件。采样频率-8000Hz。有混叠


光谱分析


示例:
有些音频材料的峰值频率为2500Hz。因此,必须选择至少5000Hz的采样频率。


数字音频的下一个特性是比特率。比特率是每单位时间传输的数据量。比特率通常以每秒比特数(Bit / s或bps)为单位。比特率可以是可变的,恒定的或平均的。

使用以下公式可以计算比特率(仅对未压缩的数据流有效):

比特率=采样率*位*通道

数例如,音频CD比特率可以按以下方式计算:
44100(采样率)* 16(位)* 2(通道数,立体声) )= 1411200 bps = 1411.2 kbit / s

使用恒定比特率(CBR),每单位时间数据流量的传输在整个传输过程中不会改变。主要优点是能够相当准确地预测最终文件的大小。缺点-不是大小/质量的最佳比率,因为在一段音乐中音频材料的“密度”会动态变化。

当使用可变比特率(VBR)进行编码时,编解码器将根据所需的期望质量选择比特率。顾名思义,比特率在编码的音频文件中有所不同。此方法提供了输出文件的最佳质量/大小比率。缺点:最终文件的确切大小很难预测。

平均比特率(ABR)是VBR的一种特殊情况,在恒定比特率和可变比特率之间处于中间位置。具体比特率由用户设置。程序仍会在一定范围内对其进行变化,但不会超出给定的平均值。 

对于给定的比特率,VBR质量通常高于ABR。反过来,ABR的质量高于CBR:VBR> ABR> CBR。

ABR适合需要VBR编码优势但文件大小相对可预测的用户。对于ABR,通常需要2次编码,因为在第一次编码时,编解码器不知道应使用最大比特率对音频资料的哪些部分进行编码。

有3种存储数字音频资料的方法:

  • 未压缩(原始)数据
  • 无损数据
  • 有损压缩数据

未压缩(RAW)数据格式


仅包含一个二进制值序列。
音频材料以这种格式存储在Audio-CD中。例如,可以在Audacity中打开未压缩的音频文件它们具有扩展名.raw,.pcm,.sam或根本没有扩展名。RAW不包含文件头(元数据)。

用于存储未压缩音频流的另一种格式是WAV与RAW不同,WAV包含文件头。

无损音频格式


压缩原理类似于存档器(Winrar,Winzip等)。可以多次压缩和解压缩数据,而不会丢失信息。

如何证明采用无损压缩,信息确实保持不变?这可以通过相消干涉法来证明我们带两个音轨。在第一个轨道中,我们导入未压缩的原始wav文件。在第二个轨道中,我们导入相同的音频文件,进行无损压缩。反转其中一条轨道的相位(镜像)。同时播放两个音轨时,输出信号将静音。

这证明两个文件都包含绝对相同的信息(图11)。

图。十一


无损压缩编解码器:flac,WavPack,Monkey's Audio ...

如果有损压缩

重点不是避免信息丢失,而是基于主观感觉的猜测(心理声学)。例如,成年人的耳朵通常不会感觉到高于16kHz的频率。利用这一事实,有损压缩编解码器可以简单地硬截断所有高于16kHz的频率,因为“无论如何也不会听到差异”。

另一个例子是掩蔽效果与强振幅重叠的弱振幅可以较低的质量再现。在大声的低频下,耳朵不会捕获安静的中频。例如,如果有1kHz的声音,音量为80dB,则不再听到2kHz的声音,音量为40dB。

这使用编解码器:可以删除2kHz声音。

具有不同压缩级别的mp3编解码器的频谱分析


有损压缩编解码器:mp3,aac,ogg,wma,Musepack ...

谢谢您的关注。

UPD:
如果由于某些原因无法加载音频文件,则可以在此处下载它们:cloud.mail.ru/public/HbzU/YEsT34i4c

All Articles