摘要
Hi-Fi(High-Fidelity),翻译为“高保真”,其定义是:与原来的声音高度相似的重放声音。由此可得,Hi-Fi系统的任务是:最大限度的还原声音。然而,目前在行业中存在许多误解,鱼龙混杂,对于声音回放系统的定位出现了一定程度的偏差,错误的把回放系统作为一种能够改变音乐本身的存在,而非作为一台单纯的回放音乐的工具。实际上,在音响系统、音响设备的设计开发和评价过程中,是否符合高保真要求,一般应采用主观听音评价和客观指标测试相结合的方式来进行,并以客观测试指标为主要依据。
笔者作为一台电气工程系的学生,兼职乐团乐师和混音师,在几个月的混音工作学习过程中,对于监听室中的监听系统有一定的研究,在对录音进行处理的看出大众对过程中,结合自个大学本科时期的课程知识,对音响系统有一定的认知,由此也与Hi-Fi行业目前存在诸多的认知误区。为此,我想出一台专题,基于《电路》、《信号与系统》、《模拟电子技术》、《数字电子技术》、《自动控制原理》、《电磁学》、《电机学》等学科知识,结合MATLAB等软件的仿真研究分析,深入剖析音响系统中的每个部分,给出一台如何理解音响系统的工作过程和指标参数的思考方式。
1 音响系统中的信号传递过程
通过音响系统欣赏音乐,实际上是一台音频信号还原的过程,其还原的信号即录音系统采集的信号。
以乐团的录音为例,首先是声源——乐器的机械振动发声,这个是整个系统的信号源(一般不唯一),声源的声音信号在介质中以机械波的形式传播,在录音过程中一般介质为空气,声源的振动会压缩空气中的分子,声波则会以纵波的形式传递信号源的信号。之后便是信号的采集,麦克风是系统中的中传感器,其中的振膜会接收声波的信号,把机械振动的声音信号转化为模拟电信号,通过声卡的放大、A/D转换成为数字信号,之后便是混音的工作。
混音工作室
简单的说,混音就是对多路信号源进行混合、处理,以监听系统作为对信号进行调整,主要的调整包括音量、EQ、混响、定位等,使得作品的效果达到混音师和指挥的要求(此处是乐团录音的情况),之后便是把混合好的多音轨信号导出为两声道立体声信号输出(某些成品声道数可能更多但笔者尚未接触),这样就得到了母带,母带再经过压制、转码后就可以得到可以用于传播的音源文件,也就是消费者可以获得的音频文件、CD等。
录音的信号传递过程
而在家用的Hi-Fi系统中,信号的传递过程就是一台还原的过程,信号源是音源文件,通过播放器的解码、解码器的D/A转换后得到模拟信号,再经由电平放大和功率放大到足以驱动扬声器,再由扬声器将电信号转换为声音信号。这里所得到的声音信号就是我们听到的音乐。
回放的信号传递过程
以上的过程就是整个音响系统的信号传递过程,一般而言的Hi-Fi系统是为了还原声源信号的观点其实并不完全正确,在如今的多声道录音已经成熟的环境下,混音的过程在录音制作的过程中也是极为重要的环节,其中作为参考的监听系统其实就是混音师所用的Hi-Fi系统,而录音的最终效果也是以监听系统中的效果为参考的,所以可以得出结论,一套Hi-Fi系统还原的目标其实是混音师在监听系统中听到的音乐作品,这也是混音师希望听众能够欣赏到的。
2音响系统中的失真
因为技术的限制和设备成本等各方面的原因,音响系统在还原信号的过程中并不能做到100%的还原,而在录音的过程中也存在一定程度的损失,这个章节将会说明每一台环节中信号的损失,也就是失真。
首先,在静态状态下失真主要可以分为几类
1. 线性失真
2. 非线性失真
3. 引入的噪声
这些失真基本会存在与任何一台环节,且通过目前的技术手段只能尽可能减少但无法完全避免。当然目前的消费级产品的失真有一部分可以做到接近甚至低于人耳朵的听觉极限,换而言之一部分产品引入的失真是不可闻的,所以太过纠结于性能参数其实没有太大的意义。
下面就来解释下每种失真的具体含义
1. 线性失真
线性失真的定义是输出信号中不会有输入信号中所没有的新的频率分量,各个频率的输出波形也不会变化。这种幅度的失真或者相位的失真是由该电路的线性电抗元件对不同频率的响应不同而引起的,所以叫线性失真,又叫频率失真。
这一点很好理解,可以举个例子,在往系统中输入任意一台频率的正弦信号时,系统会输出一台相同的正弦信号,整个正弦波不会变形,但是不同频率的正弦波输入到该系统中时,输出的幅度或者相位存在差别,比如输入一台1kHz峰峰值为2V的正弦波输入时,输出的信号峰峰值为10V,而输入一台峰峰值相同的100Hz的正弦信号时,输出的信号峰峰值为5V,这就是这个系统的频率响应中的幅频特性。而另一种情况就是,输入系统的正弦信号频率不同时,输出的正弦信号会出现不同程度的超前或者滞后,也就是说输出信号正弦波的初始相位与输入信号不同了,这就是系统的相频特性。一般而言系统的频率响应可以用伯德图表示。
这里自我引用我目前正在研究的滤波器的伯德图,这是一台广泛用于电网中的LCL型滤波器,其实就是一台低通滤波器,其目的时为了过滤电网中的谐波分量,保证供电的电能质量。
LCL型滤波器
这个伯德图是通过MATLAB仿真软件进行绘制的,其中靠上的一张是这个系统的幅频响应曲线,表示的是幅度与频率之间的关系,靠下的是相频响应曲线,表示的是相位与频率之间的关系。
LCL型滤波器的伯德图
由于其中的原理比较复杂,涉及了电气工程及其自动化专业中的很多专业知识,本文偏向于科普性质,这里就不展开了。
2. 非线性失真
与线性失真不同,非线性失真的定义是输出信号中会出现输入信号中所没有的新的频率分量,这样会造成输出波形的畸变,比如向系统输入一台1kHz的正弦信号,输出的信号中不仅含有1kHz的正弦信号,还会含有2kHz、3kHz、4kHz、5kHz等的信号。根据积分变换的知识,将一台周期信号分解为一台直流分量和一系列复指数信号分量之和的过程被称为傅里叶级数展开,所以将这个变换进行一次逆变换,就可以将多个正弦信号合并为一台周期信号,而这个信号的波形和原信号是不同的。这种失真出现,便很难去除,在电力系统中一般会通过LCL滤波器配合有源滤波器来去除谐波,这也是我本科时毕业设计的课题,但是这种方法在音响系统中并不适用。在音响系统中,一般会使用共模抑制比较高的差分放大器配合对称式放大电路让谐波相互抵消,实现对偶次谐波的去除,这与电力系统中常用的利用对称的三相变压器D接实现对偶次谐波和3的整数倍次谐波的去除手段的思路相同。一般来说,衡量非线性失真的指标是总谐波失真(Total Harmonic Distortion,THD),当然也有互调失真(intermodulation distortion)等。
模电中的非线性失真
3. 引入的噪声
噪声这个就更好理解了,从物理角度看,噪声是无规则的机械波。可以理解为系统在经过的信号中加入了杂质,污染了原本的信号,一般而言底噪和高频噪声就是常常出目前音响系统中的噪声。
白噪声
3 失真的产生原因
以上的所有失真,几乎可以说存在音响系统的所有环节,而且产生的原因虽然不完全相同,但是也有一定的共性。虽然每个环节都会产生失真,但每个环节产生的失真类型不尽相同,即便有相同类型的失真,失真的量也是不同的。所以具体分析每一台环节的失真,就可以了解失真的产生,以及如何尽可能减少一台系统中失真的影响。
首先要讲的,也是最大的失真来源,涉及到声-电、电-声信号转换环节产生的失真。负责声-电转换环节的是麦克风,目前的录音室中广泛使用的麦克风大多为电容式麦克风这里就以经典的Neumann U87 AI为例,这是出色麦克风的现代化身。U87于1967年问世,立即受到工程师,生产商及其客户的青睐。到70年代中期,它已成为每个高品质录音棚中的必备品。到今天仍然到处会看到U87的身影。它的受欢迎程度很容易理解:它开创了音频保真度和可靠性的新时代,并具有三种可选的指向模式(心形,全向和8字形),以及可切换的高通滤波器和10dB的预衰减,是多种录音技术的理想选择。 Neumann U 87 Ai是行业标准的大振膜电容麦克风。
Neumann U87 Ai
接下来可以看看这个麦克风的技术参数,通过技术参数就可以得到一款录音级别的麦克风会存在何种失真。
这个就是来自官网的Neumann U87 Ai参数,可以看到其中包含了频率响应、阻抗、信噪比、动态范围、THD等参数,基本可以说明这款经典的麦克风在录音过程中会存在一定程度的线性失真、非线性失真、引入噪声。
Neumann U87 Ai的参数
在这个网页之后的图片中,也有这个麦克风的频率响应曲线图,指向性图等,可以看到Neumann U87 Ai型麦克风的频率响应在20Hz-20kHz的范围内并不是一条直线,所以可以说在一定程度上会对声音产生影响,当然这个失真的幅度其实是很微小的,而且对于录音而言并不一定是负面的,所以因为这个而否定这是一台优秀的录音设备是不严谨的。而指向性图这个涉及空间分布方面的概念,暂时不谈。
Neumann U87 Ai的图表
造成频率响应不平坦的原因有很多,其中有麦克风的振膜的物理特性、阻抗特性、结构设计、主观调整等因素,这些涉及很多专业知识,笔者也有待深入研究,所以暂时不深入分析了。
麦克风的非线性失真则是一台重要指标,非线性失真几乎在任何情况下都会劣化音质(胆机爱好者可以反驳我),且几乎无法逆转。所以THD的值应该是越小越好。而麦克风产生非线性失真的原因,主要是振膜振动的非线性造成,这个理解起来比较复杂,简单来说,麦克风的振膜可以理解为一条有弹性的橡皮筋,这个橡皮筋可以随着外力而形变且在不受力状态下能回到原本的静止位置,但是如果形变量超过一定范围,就会出现一台阻止形变发生的力,因此振膜无法随着声波自由形变,所以振膜的振动存在一定的非线性,且在振动范围越大的情况下越明显,所以麦克风在声压增大的情况下,非线性失真会随之增大。而电容式麦克风还有一些电子元件,这些元件的非线性也会产生相应的失真,这点下一节会讨论。
声-电信号转换环节说完,接下来是电-声信号转换环节,负责这个环节的是扬声器(耳机)。扬声器的种类很多,按其换能原理可分为电动式(即动圈式)、静电式(即电容式)、电磁式(即舌簧式)、压电式(即晶体式)等几种。电动式扬声器具有电声性能好、结构牢固、成本低等优点,应用广泛;而后两种多用于农村有线广播网中;
按频率范围可分为低频扬声器、中频扬声器、高频扬声器,这些常在音箱中作为组合扬声器使用。
按声辐射材料分纸盆式、号筒式、膜片式;按纸盆形状分圆形、椭圆形、双纸盆和橡皮折环;按工作频率分低音、中音、高音,有的还分成录音机专用、电视机机专用、普通和高保真扬声器等;按音圈阻抗分低阻抗和高阻抗;按效果分直辐和环境声等。
动圈式扬声器的结构
以最常见的动圈式扬声器为例子,其结构如图,其中最重要的结构是音圈、磁体和纸盆,扬声器工作时,给扬声器的音圈中通入交流电流,音圈在输入电流的作用下产生交变的磁场,而音圈又放置在永久磁铁中,音圈在这两个磁场的作用下做垂直于音圈电流方向的运动,这样音圈在电流作用下而往复运动。由于音圈与纸盆链接在一起,这样音圈运动带动纸盆的前、后振动,而振动的幅度和频率时与输入音圈的波形时一致的,所以电信号就成功转化为了机械振动信号。纸盆的振动推动空气的振动,人耳便能感受到空气的振动而产生声音。这样输入扬声器的电流通过扬声器的作用转换成了声音。
和麦克风类似,扬声器的失真也是含有线性失真和非线性失真,其中的产生原因与麦克风也是基本相同,所以不多赘述。
这里也会找到一款经典的监听音箱,Neumann KH310A来进行分析。由于这款音箱是有源音箱,而在监听市场中,有源音箱已经逐渐成为主流选择,所以这里先会分析,模拟放大环节的失真。
KH 310A
模拟放大环节主要分为两类,以放大输出电压水平为目的的电压放大器和以提高输出功率以提高驱动能力的功率放大器。电压放大电路主要任务是使负载得到不失真的电压信号,在小信号状态下工作。功率放大电路主要任务是使负载得到不失真的输出功率,在大信号状态下工作。这两个实际上分别对应着Hi-Fi系统中的前级放大器(Preamplifier)和后级放大器(Power Amplifier)。
前级放大器
后级放大器
虽然两种放大器的功能不同,但是其结构是类似的,产生失真的原因也基本相同。首先,目前市面上的合格的功放基本上都可以做到在无限大电阻负载下频率响应在20Hz-20kHz上偏离不超过0.3dB,且输入、输出阻抗基本为纯阻性,所以相位失真也基本上可以忽略。由此可得,功放中的主要失真为非线性失真。
电子电路中产生非线性失真的原因有很多,这里仅做简单分析,具体会以后单独撰文展开。简单来说,非线性失真的产生原因是放大电路中采用的元件并非理论中存在的理想元件,如三极管的放大区并非呈完全线性,对称式放大电路中的对管不能做到完全对称等。
理想与现实——放大器
所以在KH310A的官网介绍中,我们可以看到频率响应曲线、THD曲线等参数,这些参数是衡量一套监听设备的重要参数。作为一台生产极为专业的监听设备,极具严谨性的德国牌子,Neumann把很多的参数都在官网展示了出来,这里也可以看到频率响应是极为标准的,THD在90dB声压级别下也控制的很好。
KH310A的频率响应曲线
KH310A的THD曲线
以上讲的都是模拟部分,而现代录音和Hi-Fi系统中不可避免的含有数字部分,接下来会讲解数字部分的失真,而且数字部分产生的失真不完全包含在三类失真中。
数字信号的传输和储存状态并不会产生失真,产生失真的环节主要在进行数字信号转码以及A/D、D/A转换过程中。
数字信号与模拟信号不同,只有0和1而非连续,所以通过数字信号记录模拟信号中的信息就需要采样。
采样的过程
采样的过程其实就是分格子,首先是在时间轴上把模拟信号分割,再在电平上把模拟信号分割,通过数字信号记录这时间点的电压值并转化为二进制数,就完成了采样,模拟信号成为了PCM信号,而PCM信号是无法储存的,必须进行编码、封装成为音频文件,才能进行储存、编辑等。而在播放时,以目前最常用的PC为例,就要通过播放器进行解码,把音频文件转化为PCM信号,再通过声卡进行D/A转换,把PCM的二进制数转化为实际的电平,无数个采样点的电平组合成为模拟信号。
可以看到,这里应用到了微积分的思想,所以只要进行了数模转换,就必然会引入失真,但时如果采样率足够高,还原则会越精确,如今数码母带的失真水平已经远低于人耳的听觉极限,且传统的模拟唱片、磁带等媒介本身会因为时间、环境等因素引入失真,对播放设备的要求可十分苛刻,播放设备本身的失真也很难做到比数字播放更小,所以时至今日纯模拟的系统已经推出历史的舞台,追求那种传说中的“模拟味”是否理性?值得思考。
黑胶唱片
不过,再进行D/A、A/D转换过程中,设备与模拟系统一样也会引入失真,与模拟放大部分相同,这里引入的失真绝大部分为非线性失真,且这部分引入的非线性失真在电子部分是较多的,所以衡量声卡、解码器的技术指标中,THD是十分关键的指标。
至于噪声,则存在任何一台环节,有且仅有可能产生负面影响,产生的原因也是多种多样,大部分的噪声来源是设备的电源,一部分来自环境的感应电,而这些都与设备的抗干扰能力、滤波能力有关,这点以后也会专门讲解。
最后一台,也是最复杂的一台,环境产生的失真,这里涉及的概念实在太多,这里不展开,简单提一下,一台合格的录音棚中必须要有声学处理的装修,设备也要进行校准,才能获得准确的声音,所以环境产生的影响也是不容忽视的。
4 失真对声音的影响
首先,失真对于声音是肯定存在影响的,那么失真是如何影响声音的?不同类型,对声音产生如何样的影响?这一章我们会深入分析。
首先,根据初中物理学,评价声音的三个要素
响度,音调,音色
音量与响度
响度的话就很好解释,因为声音是一种波信号,所以响度的概念,实际上就是波的振幅,振幅越大声音的响度就越大。而在实际的音响系统中,响度是可以通过电位器、DSP等方式调节,所以单纯的响度要素并不能对系统的保真度产生影响。
过两个或以上音源之间的相对响度,会对最终的声音效果产生影响,这个实际上是掩蔽效应的原因,掩蔽效应指由于出现多个同一类别(如声音、图像)的刺激,导致被试不能完整接受全部刺激的信息。其中,视觉掩蔽效应包括明度掩蔽效应和模式掩蔽效应,其影响因素主要包括空间域、时间域和色彩域;听觉掩蔽效应则主要包括噪声、人耳、频域、时域和时间掩蔽效应。
掩蔽效应
第二个要素,音调,这个也很好理解,这个主要是评价声波的频率的要素。一般而言,音调的高低取决于声波中基波的频率
音色这个就比较复杂了,音色(Timbre)是指不同声音表目前波形方面总是有与众不同的特性,不同的物体振动都有不同的特点。
不同的发声体由于其材料、结构不同,则发出声音的音色也不同。例如钢琴、小提琴和人发出的声音不一样,每一台人发出的声音也不一样。音色是声音的特点,和全世界人们的相貌一样总是与众不同。根据不同的音色,即使在同一音高和同一声音强度的情况下,我们也能区分出是不同乐器或人发出的。如同千变万化的调色盘似的颜色一样,“音色”也会千变万化而容易理解。
不同乐器的音色
基于以上的理论基础,去分析每种失真对于声音的影响,那就非常省事了。
首先是线性失真,如果系统的幅频特性是一条理想的,平坦的直线,那么音源的信号就可以毫无损失的传递过来,但如果系统的幅频特性不是一条理想的直线,那就会产生线性失真。
原文链接:https://exound.com/articles/93d670b6-d3ce-438a-bb52-35193f8375d9
这里借用来自叉烧网的一张图,这张图中很清晰的标明了音乐中每一种声音的频率分布,可以看到每一段频率负责的部分是不同的。所以假设一只音箱的频率响应不平直,如以下这张图中的音箱:
某音箱的频响曲线
乐器、声部之间的平衡就会被打破,因为掩蔽效应的问题,某些过于突出的声部会掩盖了其他声部、某些应该被掩盖的部分可能又会过于突出,最后就有可能出现所谓的人声糊脸、声音偏厚等问题,这样是与混音师的处理想法存在一定偏差的,很有可能会对音乐的处理产生一定的误解。
频率响应对于声音的影响除了平衡性外,更重要的是会影响音色,决定音色的因素有很多,在众多因素中影响较大的是声音的频谱分布(Spectral Envelope)以及时间包络曲线(Time Envelope)。除此之外,平均频率(Mean Frequencies)、声音中的噪声(Noise)、频谱中心(Spectral Centroid)、一些随机成分(Irregularity Parameters)和频谱的变化(Spectral Flux)等也会对音色造成影响。不过频谱分布对音色的影响是非常大的,其中最重要的要素就是泛音,也就是谐波,一台声音信号的基波频率决定了这个声音的音调,而它的谐波频率和含量,则在很大程度上影响了这个声音的音色。
声音中的泛音
假设在一台钢琴上弹出一台国际标准音A,那么这台钢琴就会发出声波,对这个声波信号进行一次快速傅里叶变换(FFT),那么就可以到这个声波的频谱,因为暂时没有条件做这件事,我就引用我自个本科时期论文中的图
装杯装用图1
这就是对于电网中的电压、电流波形信号进行FFT后得到的波形,可以看到这个信号的基波是50Hz,然后其中还含有100Hz、200Hz、400Hz等的谐波,这些谐波不会影响基波的频率,所以可以看到波形或是一台50Hz的正弦波,放在声学中,极为音调不变。但是其中含有的谐波成分会使波形发生一定程度的畸变,放在声学中就是泛音导致了音色变化。
那么,如果系统的频率响应并不是平直的,我们就假设在200Hz-300Hz这一段有一定程度的增强,这样产生的结果就是200Hz和250Hz这一部分的含量会增加,这个信号的形状就会变化,听起来也会不同。
装杯装用图2
由此可得,频率响应是会对声音产生显著的影响,所以如果想要声音回放的效果准确,频率响应应该是越接近理想的平直是越好的。这也是为啥监听音响的频响曲线一般都是比较平直的。
惨不忍睹的非线性失真
非线性失真的情况其实和上面的第二种情况一样,就是会对声音的谐波含量产生一定的影响,所以系统中的电子部分对声音的影响主要就是对音色的影响。这里就放一张某宝某店的某款DAC的惨不忍睹的非线性失真,测试参数来自www.audiosciencereview.com,原文中含有本款产品的型号,所以为了保命就不放上来了。
5 总结与展望
本文主要讲解了Hi-Fi系统的主要部件和工作原理,并从信号学的角度,结合多门科目的专业知识及软件仿真,以系统的静态频谱特性为切入点,以失真为主要研究对象,分析了Hi-Fi系统中的几类主要失真及其对系统还原能力的影响,可以通过本文很清晰的了解评价一套Hi-Fi素质的几个关键因素,对理解消费级音频产品有一定帮助。
本文仅对声学中的频谱部分展开了分析,并未对声音的几何特性、时域特性等进行分析,对声音还原的评价体系仍然比较片面,单纯用失真来形容各类音染,在用词专业性存在一定的概念偷换,不过为了更形象的形容,我就使用了信号学中的这个概念。实际情况中,无论是频率响应和时域响应带来的影响不一定完全是负面的,由于篇幅问题,对于很多系统的细节信息未能展开讨论,未来将会另撰文作为补充。
6 后记
写这篇东西的原因呢,广州的疫情人被关疯了,“企业委托项目”直接降级为“阅读文献“,在学校的知网账号乱翻,看着看着就看了一堆奇奇怪怪的文献,想写点东西(我如何会告诉你我成功掉到白银所以不想玩游戏事实),恰逢无聊听了30多张卡拉扬的CD,在这个过程中重拾了大四寒假实习时候的记忆,有感而发,写下此文。本来是想随便水5000字,结果一不小心就快9000了,而且很多东西还没讲清楚,仅仅开了个头,挖了一堆坑,自我感觉用词也太严谨、太像一篇论文了,如果各位读者感觉这样比较难懂欢迎在评论区留言给出宝贵的建议。
最后,本人并非专业的资深作者,撰文仅为个人兴趣,随缘更新,评论也未必能及时回复。如果有人想问我用的设备,统一回复:HD600+7506,这是我在录音棚中用的配置,但实际工作中主要使用的是监听音箱,耳机仅用作饭厅、作为混音补充和日常欣赏使用。
Sennheiser HD600
如果有想问某耳机好不好的读者,我只能抱歉,没听过,如果想了解耳机表现建议到这个网站查询参数。
参考文献
看到查重系统就烦,不写了。 |