声音的六种性质
- 频率
- 振幅
- 音色
- 时长
- 波封
- 方位
频率表示声音的高低(声调)。“声调”用于描述位于人耳音域内的频率。
振幅表示音量的大小。
时长表示声音的持续时间。
音色表示一种乐器的独特声音或色彩。小提琴的音色和钢琴不同。
波封表示声音随时间变化的波形或轮廓。简单的波封包含三个部分:起音、延持和衰减。原声吉他起音突然、延持短促、衰减迅速。钢琴起音突然、延持适中、衰减适中。人声、管乐器和弦乐器声音的起音、延持和衰减都不一样。
方位表示声音发出的地方到听者的距离。因为声音是在三维空间里传出的,所以我们左右耳膜收到声音的时间不一样。
这六种性质是音乐学、物理学、声学、数字信号处理学(DSP)、计算机科学、电子工程学、心理学和生物学研究的对象。
术语表
MIDI
MIDI(Musical Instrument Digital Interface,乐器数码接口)是一种硬件和软件规范,能够通过数码设备实现电脑与合成器的交流。MIDI的第一个版本于1983年发表。MIDI本身不会发声,它只会告诉合成器该怎么处理音符。你所听到的声音质量取决于合成器内建的声库。便宜的MIDI合成器听起来和玩具一样。昂贵的MIDI合成器可以逼真地模拟出完整的管弦乐团,但价格可能会超过一万美元。MIDI制造商协会(www.midi.org)负责管理MIDI的各项事务。
数字音频
数字音频是数学、计算机科学和物理学智慧的结晶。我们听到的声波其实是由一串数字发出的。模数转换器(ADC)能将模拟信号(即话筒中电压的变换)转换成数字,然后传输到电脑中。电脑对这些数字进行处理,然后将它们传输到数模转换器(DAC)中。DAC能将数字还原成扬声器里的模拟信号。
模拟信号和数字信号
模拟信号是连续的信号。数字信号是离散的信号。模拟信号的值在任何时候都是确定的。数字信号的值只有在特定的时候才能确定。
前缀
这些前缀表示数量级。例如,1吉赫兹的电脑CPU要用纳秒时钟来计时。又例如,一个慢速的数字信号录制器可以每纳秒录制23份采样。
前缀 |
数值 |
缩写 |
Tera(太) |
1,000,000,000,000 |
T |
Giga(吉) |
1,000,000,000 |
G |
Mega(兆) |
1,000,000 |
M |
Kilo(千) |
1,000 |
K |
|
|
|
Milli(毫) |
0.001 |
m |
Micro(微) |
.000001 |
μ |
Nano(纳) |
.000000001 |
n |
Pico(皮) |
.000000000001 |
p |
频率
频率的单位是赫兹(Hz)。一赫兹表示每秒一个循环。人类的听觉范围是20Hz - 20,000Hz。超过20 KHz的声音称为超声波(医学上的超声波成像一般用2到18 MHz的声波)。低于20 Hz的声音称为次声波(一些理论认为某些幻觉是次声波引起的,因为人类眼球的共振频率大约是18 Hz)。我们衰老时,对听觉范围内上层的听力将衰弱。人类说话的频率一般在85 Hz - 1100 Hz这个范围内。如果一个声音的频率是另一个声音的两倍,那么这两个声音构成八度关系。这些声音每个都比前一个音高一个八度:100Hz、200Hz、400Hz、800Hz和1600Hz。
音乐中的频率
很多人认为频率和声调是一回事。但是,它们之间有着一道微妙的界限。纯正弦波是唯一只包含一种频率的声音。我们听到的绝大多数乐音都是由许多和谐的频率组合而成的。尽管如此,音乐中的频率也能称作“声调”,不同声调还有自己的名字,例如“中央C”和“中央C上面的A”。
音乐频谱是一个离散的系统,只会用到一些特定频率的声音。例如,钢琴选用了27.5 Hz至4186 Hz之间的88个音。现代音乐使用的音律系统称为“平均律”,将八度平均分为12个部分。两个相邻音符的频率之比是
$2^{1\over 12}$。

频率越高,声调越高;频率越低,声调越低。乐谱中,声调更高的音写在谱表的上方,低音反之。正对钢琴,声调高的音在右边,声调低的音在左边。
低频=低音

高频=高音
MIDI中的频率
MIDI用对应钢琴琴键的MIDI音符编号来表示频率。钢琴的88个键分别对应MIDI音符编号的第21至108位,中央C是第60位。将音符编号增加或减少12,可以把音符升高或降低一个八度。MIDI可以用过“调整声调”指令改变一个音符的频率。MIDI调音插件可以让你对128个MIDI音符的频率进行微调。不过,不是所有合成器都支持微调功能。
数字音频中的频率
物理学和数字信号处理学(DSP)研究的频率范围非常广。声音频谱是这个范围的一小部分,一道窄窄的20 - 20,000 Hz条带。 声音频带最高只到20000(
$2 \times 10^4$)Hz,而总频带可以达到
$10^{20}$ Hz。由于声波和伽马射线差别巨大,我们绘图的时候需要使用对数标度。
最“纯”的、有声调的音是正弦波。下面是正弦波的示例公式,n表示一个正整数;f表示以Hz为单位的频率;SR表示以每秒采样数为单位的采样率;θ表示弧度制下的相位。
(1)
\begin{align} 正弦波(n) = \sin \left( 2 \pi f {n\over SR} + \theta \right) \end{align}
很多复杂的声音可以通过正弦波相加、相减、相乘来得到。一切频率和音律系统都是可以实现的。你可以将八度分为N个部分,此时每组音符之间相差$2^{1\over N}$倍,而不是平均律里的平均十二份。
振幅
振幅用于描述声音的强度,单位为分贝。我们用“响亮”和“轻柔”来描述振幅。听觉研究指出,我们会认为频率非常低或非常高的声音比中间频率的声音要“响”,即使它们的振幅相同。
音乐中的振幅
音乐用“力度”这个术语来描述振幅。下面是九个常见的音乐力度记号。振幅从高到低:
- fortississimo(极强) - 要多响有多响
- fortissimo(很强) - 非常响
- forte(强) - 响
- mezzo forte(中强) - 中等响亮
- mezzo piano(中弱) - 中等轻柔
- piano(弱) - 柔
- pianissimo(很弱) - 非常柔
- pianississimo(极弱) - 要多柔有多柔
- rest(休止) - 寂静
古钢琴(pianoforte)是现代钢琴的祖先,于1710年由巴托罗密欧·克里斯多佛利在意大利发明。这是第一种能够依靠按键力度来调整声音弱(piano)和强(forte)的键盘乐器,因此得名。如果它是在英国发明的,估计就得叫柔响琴(softloud)了。
MIDI中的振幅
MIDI用“速率”来描述振幅。MIDI的速率范围是0到127。数字越大,振幅越大。0表示寂静。
电子音频中的振幅
声音的振幅决定了声波的相对响度。声波图里面,波形的高度就是振幅。下面的两个声波频率相同,但振幅不同。振幅大的声音更响亮。
小振幅=声音弱

大振幅=声音响
振幅的衡量单位是分贝,分贝这个名字是由前缀“分”和基本单位“贝”(得名于亚历山大·G·贝尔)组成的——所以分贝的缩写是dB。分贝没有物理单位,它是纯粹的数量,表示一个声音相对另一个声音的响度比率。因为我们的耳朵可以听见很大范围的声音,所以分贝不使用线性标度,而是使用对数标度,公式如下:
$dB=20 \log_{10}\left(\frac{{振幅}_1}{{振幅}_2}\right)$
dB如果是正数,则表示音量提高(增益);反之,则说明音量降低(衰减)。将振幅扩大两倍,相当于加6 dB,声音听起来比之前响一倍。将振幅缩小一半,相当于加-6 dB,声音听起来比之前弱一半。振幅放缩十倍,相当于分贝增减20。分贝每变化10,声音的强度就按照10的幂来增减。例如,交响乐的最低音量(20 dB)和最高音量(100 dB)的振幅相差100,000,000倍(10的8次方)。下面的表格展示了一些相对的分贝等级。把10^3看作 。
分贝(对数标度) |
幅度(线性标度) |
描述 |
160 |
10^16 |
|
150 |
10^15 |
|
140 |
10^14 |
喷气式飞机起飞 |
130 |
10^13 |
|
120 |
10^12 |
能引起疼痛的最低声音;放大音量的摇滚乐队 |
110 |
10^11 |
|
100 |
10^10 |
交响乐的最高音量 |
90 |
10^9 |
|
80 |
10^8 |
真空吸尘器 |
70 |
10^7 |
|
60 |
10^6 |
交谈 |
50 |
10^5 |
|
40 |
10^4 |
|
30 |
10^3 |
|
20 |
10^2 |
窃窃私语;交响乐的最低音量 |
10 |
10^1 |
|
0 |
10^0 |
人耳能听见的最低声音 |
数字音频硬件经常会把分贝尺度倒过来,把0 dB当作硬件能在不失真的情况下准确发出的最高声音。更弱的声音用零以下的分贝数字表示。软件中,分贝尺度通常限制在0 dB至120 dB的范围内,取某个大概的位置作为0 dB。这种dB尺度在软件Logic Pro里可以看到。左边的dB尺度从0 dB到-60 dB。右边音量调节器的0.0 dB设置对应dB尺度上的-11 dB。
录制数字音频时,你得保证所有声音都在0 dB以下。留意左图的信号在0 dB处平整的高峰。这种现象称为数字限频,听起来简直烂透了。下面两幅图是在开源跨平台软件Audacity上截取的。(http://audacity.sourceforge.net/)
限频后的声音
未经限频的声音
音色
音色表示声音的调性色彩。音色决定了钢琴听上去和长笛或小提请不同。乐器的音色取决于它的物理结构和形状。音色不同的声音波形也不同。下面是几种不同乐器演奏A440声调的波形图。
钢琴

小提琴

长笛

双簧管

小号

电吉他

铃铛

小鼓
音乐中的音色
音乐领域用乐谱里的文字来描述音色,如“为长笛、双簧管和钢琴而作的奏鸣曲”。乐谱上可能会规定特殊的音色,如吼叫、泛音、拍打、刮擦,或为乐器装上弱音器。
MIDI中的音色
MIDI中的音色可以用硬件上的按钮,或发出“补丁改变指令”来改变音色。
数字音频中的音色
不同的音色对应不同的弯弯曲曲的波形图。更确切地说,音色是声音随时间变化其频谱上独立成分的相对长度。获取频率频谱要用到数学上的傅里叶变换。傅里叶定理表明,任何周期性的波形都可以通过一系列正弦波之和表示,这些正弦波的基频前都要乘上一个整数,而且振幅和相数要恰好。
$\frac{a_0}{2} + \sum_{n=1}^\infty \, [a_n \cos(nx) + b_n \sin(nx)]$
上式纯数学意义上的和将是无限个项相加的结果。但是在数字音频方面,用一些合理数量的正弦波就很不错了。
快速傅里叶变换(FFT)在数字信号处理领域可能是最最重要的一个工具了。它可以将样品波形图在时域和频域之间来回转换。我们可以在在频域对单独的部分进行调整和操控,从而追踪声调的变化;创造全新的声音;创造用于调整声音的过滤器;将两个声音合并到一起;还能在不改变声调的同时缩放时间。在过去的10年以来,台式电脑的算力已经足以实时处理这些DSP效果了。
下面是小提琴演奏A440的三张谱图。标准FFT图展示了频域。你可以看到图上的440 Hz、880 Hz和1320 Hz处出现了波峰。它们是泛音列的前三个音:f、2f和3f,f等于440 Hz。声谱图展示的数据和前一张图相同,X轴代表时间,Y轴代表频率。频谱图的数据与前两者相同,坐标轴的意义和声谱图相反。
标准FFT图

声谱图

频谱图
这些图片是从开源跨平台声音编辑器Snd上截取的。(https://ccrma.stanford.edu/software/snd/)
时长
时长和时间密切相关。我们需要知道一个声音持续了多长时间,它从什么时间开始,到什么时间结束。在音乐和数字音频领域,时间通常是从零开始计算的。时间的记录方法分为两种:物理时间和比例时间。下面是几个例子。
物理时间,或称钟表时间
“当我听到第一个音的时候,我看向了电子表,上面显示的时间是4:25:13。当我听到第二个音的时候,时间是4:25:17。这时候第一个音已经停止了。”
我们可以得知两个音的起始时间,但不知道第一个音的结束时间。
差分时间,或称经行时间
“当我听到第一个音的时候,我启动了手表上的电子计时器。这个音恰好在1.52秒之后停止了。我听到了第二个音,但我来不及重置计时器。”
我们知道第一个音的持续时间,但不知道两个音的起始时间。
比例时间
“当我听到第一个音的时候,我刚好在量我的脉搏。此时我已经数到8了。由于我同时还看着手表,我得知了现在的时间是4:25:13。我继续数着脉搏,四下之后声音停止了。再来四下以后,我听到第二个音开始了。我那时候正好刚刚跑完步,所以我的脉搏有每分钟120下那么快。”
我们知道第一个音在4:25:13开始,在4次脉搏或2秒后结束。我们也知道第二个音在第一个音结束2秒后开始。
音乐中的时长
上面的比例时间和音乐中的时间记录法非常相似。节拍器能每隔相同的时间打出稳定的声响。声响间隔的单位是音符(通常是四分音符)的时值,音符对应节拍器的哒哒音。其他音符的时值都是单位间隔的倍数。节拍器可调节快慢。节拍器的速度,又称节拍,用每分钟音符数表示。无论节拍快慢,音符之间的节奏比例适中不变。每个音符的实际时长由节拍按比例缩放得出。
MIDI中的时长
MIDI标准里面没有给时间下定义。软件通过电脑内置的时钟来记录时间,单位通常是毫秒,有时也用微秒。下面的方法(伪代码)可以教你如何放置两个节拍为60的四分音符。
- 将电脑时钟设为0。
- 向第一个音符发送音符开启指令(NON)。
- 持续监测时钟,直至抵达1000毫秒。
- 向第一个音符发送音符禁用指令(NOF)。
- 向第二个音符发送NON指令。
- 持续监测时钟,直至抵达2000毫秒。
- 向第二个音符发送NOF指令。
数字音频中的时长
数字音频中的时长是采样率的函数。数字唱片的采样率为每秒44,100个采样点,位深为16。位深指振幅的范围。用16个比特所能表示的最大数字是216或65,536。为了正确看待音频采样,不妨用采样率和位深来描述一秒钟的声音吧。首先拿一张很大的纸,在上面沿着X轴画刻度线,每个间隔一毫米。总共有44,100个刻度线,它们的长度加起来能达到约44.1米(145英尺)。接下来,继续在Y轴上以一毫米为间隔画刻度线,它们表示16位的振幅。一半的刻度线要在X轴上面,一半要在下面。最终X轴上方和下方分别将延伸出32.768米(约107英尺)。现在请画条弯弯曲曲的波浪线,在X轴上下穿梭,曲线要从原点一直延续到第44100个采样点,同时要保持在Y轴的边界内。接下来请仔细测量145英尺的X轴上面每一个毫米级采样点的波形高度,单位是毫米。最后把这些数字写在一个文件的同一栏里。你刚才所作的事情相当于以数字唱片的采样率采样了一秒钟的声波。你花的时间可能比一秒钟更长,根本就不能称作实时采样嘛。
数字采样通过一种专门的硬件来完成,这种硬件叫做模数转换器(ADC)。ADC包含一个频率为44100 Hz的电子时钟元件。时钟每过一格,ADC就读取一次其输入端(通常为话筒)的电压值。该电压之后将被存储为一个16位数字。现代的音频设备也会使用24位的位深。24位位深能够用16,777,216个不同的数值来描述振幅。
与ADC对应的是DAC(数模转换器),它能将采样的数字转换回可以用扬声器播放的模拟信号。大多数现代电脑都内置了普通消费者质量的ADC和DAC。而专业录音室使用的是外接ADC和DAC硬件,它们的价格一般能达到数千或数万美元。
波封
波封用于描述在音符持续时间内声音的形状。这个声音是戛然而止,还是逐渐减弱?这个声音的性质均匀吗?这个声音消失得是快还是慢?
音乐中的波封
演奏者的动作或气流能改变乐音的波封。换个说法,就是“音乐表达”。
MIDI中的波封
MIDI中的波封可能是根据声音本身来绘制的,也可能是通过调节起音、衰减、延持和释音(ADSR)的参数来控制波封。ADSR波封有时可以用硬件上的旋钮和按键来控制,有时也可以在软件上控制。MIDI可以用音量或表达控制指令来模拟ADSR波封。
数字音频中的波封
波封即声音的波形图随时间变化的轮廓,在示波器和声音编辑软件里可以见到。

你可以用数学方法给波形图加上“波封”,制作一份代表波封的波形(振幅为0-1)。第二个波的时长一定要和第一个相同。原波形和波封波形合并后,所得出的第三个波形就是波封的形状。

许多声音编辑软件有自动生成波封的功能。

方位
方位指听者对声源的感知。
音乐中的方位
乐谱上通常不会指明声音的位置,但演奏者站或坐的位置会影响方位。
MIDI中的方位
MIDI将声音的位置限制在左右双声道中。MIDI全局控制指令可以将声源调整为最左边,最右边,或左右之间的一点。如果声音位于中间,那么左右扬声器的音量将会相同。如果左边扬声器接收到的信号比右边多,那么声音听起来就会像是从左边传来的。
数字音频中的方位
利用复杂的数学公式,可以用双声道扬声器营造出三维声音的感觉。声波和自身的多个复制品先后播放,可以创造出声学空间的混响效果。