You are on page 1of 9

Jeff Zhu 所著

转载请标明出处

数字音频漫谈

自 CD 面市以来,至今已经有三十多年。这个时间比很多的新一代的发烧友的年龄还要

大。我记得我当时刚接触 CD 的时候简直惊为天人,从来没有听过这么好的声音。而时至今

日,很多烧友却是更加推崇纯模拟的音源。这有点像围城里所说的“城外的人想进来,城里

的人想出去”。其实,数字音频和模拟音频各有优缺点,由于我接下来所讲的全都是数字音

频的知识,在说这些知识的时候,实际上就是围绕着数字音频的问题,和如何解决问题的方

法。所以,这里先不讲数字音频的缺点,而讲一下数字音频的优点。其实数字音频的优点就

只有一个,存储和传播是无损的。模拟音频随着拷贝次数,存储时间,使用时间,会极大的

影响其品质。这一点就注定了模拟音频的实用性问题是无法解决的。我们势必只能拥抱数字

音频。

在接下来的文章中,为了尽量使所有读者都能够理解。我会试图用尽量浅显的例子来表

达清楚。

1/9
Jeff Zhu 所著
转载请标明出处

第一篇,采样率,过采样和非过采样

我们知道,在现实世界中,音乐是连续的,图像是连续的。我们知道电视机或者电影,

其实是由一幅幅静止的画面组成的,静止的画面一幅幅的快速切换,人眼就看到了连续的画

面。那么,连续的画面需要多快呢?是一秒钟 50 幅,只要达到这个速率,人眼就不会觉察

到画面之间切换的断续,当然一秒钟 50 幅是一个最低的要求,如果能做更多更快,那是可

以提高视觉效果的。对于音频来说,也是同样的概念,音波的信息,只要是足够多的断续的

信息,便可以被人耳解读成连续的音乐。那么,人耳需要多少断续的信息才可以被解读成连

续的信息呢?这首先要讲一下人耳的可听到的频率范围,为 20-20000 赫兹。那么,如果要

体现最高的 20K 的频率的话,需要多少断续的信息呢?这里呢,我需要引入一个专有名词

“奈奎斯特频率”,具体原理我们在这里不需要去深究,我们只需要知道结果就可以了。结

果就是,至少需要两倍于 20K 的“断续的信息”


,才可以表达出 20K 的频率。说到这里,

我们就把一个“断续的信息”称为一个采样点。也就是说,我们要能够体现 20K 的音频的

话,需要一秒钟至少 40K 的采样点。那么,我们再回来看 CD 的标准,CD 的标准是

16bit/44.1Ksps。我们在这篇文章里先不解释什么是 16bit,这在后续的文章中我会解释。

这个 44.1Ksps 就是采样率,我们可以看到,离理论的最小值 40K,只有多出大约 10%的

余量,有点勉强。

在 CD 刚出现的时候,还没有过采样这项技术,但是随着人们发现 44.1K 的采样率有

点不够用,那怎么办呢?于是过采样技术就诞生了。那什么是过采样呢?简单来讲,就是因

为 44.1K 的采样率过于勉强,如果有更高的采样率势必会有更好的效果。但是,我们在 CD

中记录的信息只有一秒钟 44.1K 个,怎么变成 88.2K,176.4K 甚至更高呢?这就需要进行

插值运算,通过数学方法,算出缺掉的采样点是什么,人为的补充进去。

在过采样运算的时候,成整数倍的过采样是最容易做的,也不容易出现问题。所以,我

2/9
Jeff Zhu 所著
转载请标明出处

们应该确保过采样是整数倍的,如果不是整数倍的,比如 44.1K 过采样到 48K,这就对计

算资源的要求很高,非常容易出问题,所以,应该尽量避免这种情况的出现。这是题外话,

顺便一提。

时至今日,数字音频在过采样的路上已经越走越远,4 倍频,8 倍频不足为奇,16 倍

频,32 倍频甚至更高,这都是主流的趋势。如果是 32 倍频的话,简单来讲,就是 32 个采

样点中,其中只有一个来自于原有的记录信息,
而剩下的 31 个采样点都是来自于插值计算。

那么,我们真的可以信任那 31 个来自于插值运算的采样点吗?这就是我们下面需要讨论的

正题。

不得不说,主流的音频技术人员,甚至是设计师,都信任那 31 个被计算出来的采样点。

但真正的事实是,音频的特殊应用,不适合使用过采样这门技术。现在越来越多的人也认识

到这个问题,发现原来他们以前所相信的东西,其实是有问题。是的,我们现在处在一个否

定当前主流技术的过程中。这就像中国终于认识到了环保的重要性,开始削减很多高污染的

产业一样,虽然那些高污染的产业曾经给我们带来财富,但是,我们现在更重视环境,而财

富,我们可以用其他手段来获得。

 过采样的优点

在谈过采样所带来的问题之前,我们先谈一下过采样所带来的好处。音频技术界也不都

是傻子,没有好处的东西,谁也不会感兴趣,又怎么会发展到今日?

首先,对于一个采样率为 F 的信号进行频谱分析的时候,会产生一个以 F/2 为中心点

的镜像频谱,假设有一个 1K 的音频信号,以 48K 的采样率进行采样,那么,在频谱上的分

布,你可以看到在 1K 处有一个信号,在 47K 处也会有一个信号。

3/9
Jeff Zhu 所著
转载请标明出处

所以,我们可以看到,48K 的一半为 24K,以 24K 为中心,1K 的信号和 47K,正好是

呈现镜像关系。同样,如果是一个 5K 的信号,会出现一个 43K 的镜像信号。

这些镜像的频率都是分布于 24K 到 48K 之间,虽然人耳无法听到 20K 以上的频率可以

不用理会。但如果是后端的放大器不够理想,两个不同的频率有可能导致失真互调失真(IMD)

从而产生一个新的频率落在音频范围之内。所以为了杜绝后患,减少对后端放大器的需求,

这些在音频带宽外的信号也最好是被滤除干净。那么问题来了,模拟滤波器如果要在保障

20K 带宽内幅值和相位的平直的同时,还要滤除非常临近的 24K-48K 的信号,这就变得不

可能,虽然可以用高阶的模拟滤波器也可以做到非常陡峭的切割,但其对音频带宽内的影响

很大,结果是得不偿失。

数字滤波器的一个优点是其在频域的特性的可以做的非常完美,运用数字滤波器可以轻

松的进行过采样和滤波,在进行过采样过后,假设过采样了 4 倍,48K*4=192K。192K 的

一半是 96K,那么 0-20K 的音频信号以 96K 为中心进行镜像的话就是 176K-196K。这中

间已经拉开了足够大的缓冲地带可以让模拟滤波器进行良好的工作了。
4/9
Jeff Zhu 所著
转载请标明出处

音频的国际标准化组织曾经对 DAC 和数字放大器的指标测量指定过一个测量标准方法

叫做 AES-17,其要求对 20K 音频范围以外的信号进行一个完全的滤除以免影响到测量。如

果是过采样的 DAC,就算不按照标准来做也不会有什么影响,因为其带宽外的信号已经被

滤除的非常干净了。但如果是非过采样的 DAC,如果不按照此标准来做就会导致测量结果

出错。

另外,在高频部分,如果不进行过采样处理的话,由于样本数量过少,其幅值也会有一

定的衰减。如果以 48K 采样率为例,其在 20K 处会有 2-3db 的信号衰减。而进行过采样处

理后就完全不会有这个问题了。

 过采样的缺点

可以看到,过采样技术的确是一个看起来非常好的技术,解决了很多问题。可以这么说,

基于数字滤波器的过采样技术对于频域的处理是完美的,就算是最简单的数字滤波器,在这

方面的性能也是无可挑剔。那么接下来,我们要讲的就是过采样所带来的问题,这也是为什

么我们要否定掉这项技术的原因。

首先,过采样会带来振铃效应。一个没有过采样的突发信号应该如图 1 所示,但是我

们现在所采用的过采样技术会导致图 2,或图 3 的失真。

图1 图2 图3

在图 2,我们看到在一个信号进行变换时,其变换前和变换后会产生一些振铃。图 3 是
5/9
Jeff Zhu 所著
转载请标明出处

现在可以用的一些技术手段,可以有效的去除前振铃,但是后振铃会变的相当大。

从音乐的角度来说,前振铃就像是一个音符在它应该出现之前,就已经有一部分先跑出

来了,这会造成一些突兀的感觉。后振铃就像是一些回音,造成一些额外的混响,通常播放

环境也会有一定的混响,比如我们在房间里,听到声音是从多个渠道来的,一方面是声源的

直达声,另外存在的就是声源经过墙壁折射过后到达你耳朵里声音,更有一些是墙上折射过

几次才达到你耳朵的。但是需要注意的是,图 3 的后振铃会比图 2 严重的多,所以,当其

到达一个比较严重的程度时,就会产生拖沓的感觉,瞬态不佳。另外,额外的后振铃紊乱了

原有应该有的房间混响,导致乐器在声场中的定位也出现了问题。一个房间的混响方式是固

定的,而由过采样产生的后振铃是随时变化的。所以其对声场的影响非常大。如果从听感上

来取舍的话,我个人反而会认为图 2 比图 3 的问题小一些。

如果从波形上还是无法直接理解振铃对听感的影响的话。用图片可能更能有一些直观的

理解,因为振铃效应也存在于图像处理中。

6/9
Jeff Zhu 所著
转载请标明出处

左边是原图,右边是振铃效应。不排除有些人会认为右图才是高解析,边缘锐化会突出

表现出一些线条感,但同时损失了细腻的纹理和自然的过渡。不知道你们有没有注意到后面

有个穿黑衣服的人在回头望。在原图中,我们不太能够注意到那个人,但是在右图中,就显

得比较容易辨别。所以,对于音频发烧友来说,你喜欢哪张图呢?

为什么上面看上去这么糟糕的问题,长期以来一直未得到充分的重视呢?因为,音频工

业在衡量各种参数指标的时候,都是用频谱在进行分析。我们采用的数字滤波器来完成过采

样,在频域上的表现非常好,但是在时域上就很差劲了。如果做个通俗的比喻的话,频域相

当于内容,时域相当于顺序。

打个比方,下列语句,内容都是完整的,

1. 小猴子找不着爸爸妈妈,很着急。

2. 小猴子找不着爸爸,妈妈很着急。(顺序上很小的变化,但已经造成了歧义)

3. 爸爸找不着妈妈,小猴子很着急。(顺序上更大的变化,更大的歧义)

4. 爸小妈急爸着妈猴着不,找子很。
(更混乱的顺序,虽然内容还是完整的,但已经

完全没有意义)

7/9
Jeff Zhu 所著
转载请标明出处

而且,对于缺失的信息,是否用数学计算就可以很好的计算出缺失的信息,从而弥补吗?

在这里,我们先要说一下人的视觉和听觉,眼睛和耳朵只是一个拾取信息的器官,这些信息

被传输到大脑里,大脑有专门的部分负责把这些信息解读分析出来,大脑对这些分析的功能,

强大到连现代科学,那怕是用超级计算机,都不能望其项背,而且其中一些分析的原理,根

本连现代科学都无法解释。

举个视觉的例子,我们知道需要两个个眼睛才能形成三维的视觉,那如果你尝试一下闭

上一只眼睛,你会发现有一些影响,但影响不大,你还是能大致的定位物体离你大概的距离,

进行日常的生活。这些平面的信息,经过大脑的分析后就能轻松补足原本所不具备的三维信

息。

举个听觉的例子,我们知道我们只有两个耳朵,处在一个水平线上。那么,我们区分声

场的左右这很容易理解,因为两个耳朵是在一个水平线上的。但是为什么我们还能辨别声音

是从上还是下发出来的呢?这同样是经过大脑分析后才补全的信息,才使得我们两个处于水

平方向上的耳朵照样可以分辨垂直方向的定位。

以上的这两个例子,是现代科学不计成本都无法解决的问题,对于人脑来说,却是小菜

一碟。

如果,现在有一个非常简单的片段

1234567

中间有一个丢失了

123_567

这个丢失的信息,对于电脑来说很容易就能补齐。对于人脑来说,也同样是很容易就补

齐了

8/9
Jeff Zhu 所著
转载请标明出处

再如果,现在有一个稍微复杂一点的片段

小猴子找不着爸爸妈妈,很着急。

中间有一个丢失了

小猴子找__着爸爸妈妈,很着急。

如果用音频数字滤波器的方法来补齐的话,会得到类似于这样奇怪的结果

小猴子找找着爸爸妈妈,很着急。

但是对人脑来说,正确的补齐这个信息一点难度都没有,人脑能通过剩下的那些信息中

理解这整句话应该有的意义,从而正确的补齐那个缺失的信息。

所以,结论出来了,对于简单而单调的信息,通过现有的计算方法是可以补齐的。但是,

越是复杂的信息,现有的计算方法就越是会补入错误的信息。而人脑,在这方面要强大太多。

对于缺失的信息,传统的音频技术认为“有总比没有好”,但这其实是一条错误的道路。

对人来说,
“宁缺毋滥”,一个错误的信息远比没有信息的危害更大。没有这个信息,我们的

人脑可以补足。但是存在错误信息就会产生误导,也失去了人脑补足的机会。这就好比一锅

汤里少了一块肉,可能并不是什么大事,但如果补了一只死老鼠进去可就糟透了。老鼠也同

样是肉,对于测量指标来讲,一锅汤里补足了足够份量的肉,便是一个好的结果。

 测量和听感的思考

说到这里,我们可以发现,对于音频来说,我们应该了解到,音频产业现有的测量指标

无法对应于人的听感,所以无法通过这些浅显的数字来量化声音的质量。这些指标往往是从

内容的完整程度上进行分析。然而对于人的感觉来说并不是如此。完整的信息,但是顺序的

混乱会带来灾难性的后果。同样,多的信息并不一定比少的信息更好,一个良好设计的非过

采样的解码器我们会发现更丰富而且更自然的细节。

2 大于 1,小学生都知道,但是更高级的智慧却是懂得如何取舍,Less is More

9/9