多媒体开发（9）：我是声音

之前介绍通过ffmpeg程序来录制声音或图像，这个办法是一个操作的过程，很少涉及到概念上的东西。而本文，要介绍的是声音采集的一些流程与概念。

声音的采集流程与概念，是枯燥的，但是，我也会尽量说一些有趣的现象来缓解这种枯燥。

听得到的，或听不到的声音，抽象来说，都是模拟信号，也可以形象一点，叫能量波，因为声音是有能量的，而且有大小变化，呈波形状。*常听到的声音都是复杂的波形，不会像单一频率的声音那么干净（比如正弦波、方波之类），但为了便于分析，经常会抽象为简单的波形，另一个原因也是因为声音都可以由正弦波叠加而成。

注意，对于单频率的声音，能量虽然有大小变化，但这种变化并非一定听得出来。比如400hz，相当于小蜜蜂嗡嗡的频率，它是一个正弦波，它的能量会变大变小，但我是听不出变化的，因为频率太高了，这跟独立的图片以较高帧率显示就成了连续的，是一个道理。

声音有两个维度是很重要的，一个是能量，一个是频率。能量以时间为横向坐标，即某个时间点对应一个能量值（也叫振幅或气压），表现出来的就是波形图，这个是时域表示。

说到能量，你一定听过“狮吼功”，有想起“包租婆”吗？

狮吼功1

狮吼功2

狮子吼天下至刚至强的少林七十二绝学之一。清啸之下，犹如讯雷疾泻声闻数里，令敌肝胆剧烈，心惊胆战，震慑人心的不可思议之威力。
???? -- 小说<<狮子吼>>

包租婆的狮吼功大家都见识过了，如果加上大喇叭，杀手榜第一的火云邪神都不是她对手。

大喇叭是能量放大器，能量越大杀伤力越强。

声音，是能量波，能推动耳膜，耳膜振动就听到声音。这个推动，跟用手去推动，是一个道理，都需要力道。

声音的力道（也叫音量）用分贝来衡量。

1分贝是大部分人能分辨出的最小的声音，相当于3米外一只蚊子发出的嗡嗡声。

你*时跟别人面对面说话的音量是50分贝，它的能量是1分贝声音的大约10万倍，注意这不一个线性变化的关系。

电钻打孔的音量大约有100分贝。

演唱会现场音量可以去到137分贝，这时耳朵可能会疼。

*距离炮弹产生的声音可达150分贝，这样强度的声音足以撕裂鼓膜。

残暴的科学家曾经用高达180分贝的声音摧残过小白鼠，发现这样的声音可以震碎它们的肝脏。

所以说，只要你喊得足够大声，世界都可以摧毁。但是，一般人，都很难去到100分贝，但借助小喇叭是有可能的。

注意，尖叫时的高音，只说明频率高，频率高会让耳朵觉得不舒服，但不会去到撕裂耳膜的程度，因为人声在高频率时，能量一般是很小的。如果既能高频率又能大能量，又能高音准，那就是“我是歌手”。

注意，声音的大小（即响度）是一个心理感知的东西，很难说只受振幅的影响，很可能还跟频率（音调高低）及持续的时间，甚至对比度都有关系，所以不能说声音大小就是振幅，只能说振幅影响了声音大小。

那么在嗓门不够大的情况下，还有办法让“破坏力”大起来吗？

我们还有一招，就是共振。

能量用的是振幅，则共振利用的是声音的另一个维度--频率。

话说世间万物都有自然的振动频率，叫固有频率，就是一秒内固定会振动几次。如果推动物体的频率与物体的固定频率接*或等同，就叫共振。

共振有多可怕？

据说，特斯拉曾有一次满不在乎地告诉记者，他可以跑到帝国大厦，在很短时间内将它化为一堆碎砖烂瓦。而所用的机械只是一个微小的振荡器而已。特斯拉使用振荡器进行机械共振实验，曾使周围的一些建筑物产生了共振，最后他测出了房子的共振频率，但是同时他也发现了这个实验存在巨大的危险，连警察也被引来了。

尼古拉·特斯拉是谁？据说是最接*神的人，或者被叫作外星人或未来人。是真是假，由各位读者判断。

来看几个共振的实例。

塔柯姆大桥

摘录，因大风引起的共振而塌毁的塔柯姆大桥：

塔柯姆大桥位于美国华盛顿州的塔柯姆海峡，1940年7月1日建成通车，在大桥垮塌前，
人们早就观察到这座桥的怪异之处，即使只是微风，这座桥也起伏的厉害，
于是，它有了一个外号——舞动的格蒂。

在大桥上行驶的车辆，会由于大桥上下起伏，导致小车一会儿看得见，
一会儿看不见，而坐在车里的人，简直就像在坐过山车。
当时，一个地方性的运动就是在有风的天气到塔柯姆大桥行车或走路。
一些人为塔柯姆大桥的怪异“行为”感到不安，但是很多人却没当回事。

“舞动的格蒂”就这样潇洒地舞动了4个月，终于到了它谢幕的那一天。
1940年11月7日，那天的风速，还不到设计风速限值的三分之一，
但塔柯姆大桥还是在风中四分五裂，舞完了它短暂的一生。

摘录，因共振引起的火箭爆炸：

1995年１月２６日，我国“长征２号Ｅ”运载火箭发射美国研制的“亚太２号卫星”时，
由于美方没有告之卫星的共振频率，而凑巧卫星的共振频率与火箭整流罩的
共振频率相同，发射时，由于高空风速风向的剧烈变化，
引起共振，造成星箭爆炸。

《加油！向未来》第二季节目中，黄绮珊在舞台上一展“狮吼功”，只见随着她的高音响起，舞台一侧十几个玻璃杯同时被震碎，其画面之震撼令现场观众全都目瞪口呆。
黄妈狮吼功1
黄妈狮吼功2

这个震碎玻璃的例子还是有疑点的，但这里不细说。石英玻璃的固定频率在20khz以上（其它材质的另说），人声达到这个频率也是有可能的，但达到这个频率后还要持续，并且一定要有较大的能量，才可能把玻璃震碎。

最后，理解共振原理的最好的例子就是荡秋千：

在秋千荡到最高点，推它一下，它就会越荡越高，当然这个推的频率跟秋千的频率要一致。这就是共振效果。

以上，小程介绍了声音的能量与频率两个维度的有趣的现象，那接下来就是正文了。

之前介绍用ffmpeg来录制声音的，是应用层的实现，这次要介绍原理性的东西，而且不涉及录音师之类的工作，比如布mic、配音、拟音之类。

自然界的声音转换成数字编码，要经过电*化、放大、采样、量化、编码。

（一）电*化

比如，通过碳膜来对接声音。声音的能量推动话筒的碳膜，碳膜振动时触发跟它相连的电极，产生电信号。电*大小与碳膜的振幅相关，而这又与声音的能量（变化）有关。

（二）放大

通过话筒取到的电信号是微弱的，为了支持后续的处理，有必要通过放大电路把信号放大。

（三）采样

采样是模数转换（ADC）的过程，也就是把连续的电信号采样成离散的数值。

这里有一个概念叫采样率，采样率就是一秒钟一个声道采多少个样本。比如采样率为44100hz，则表示一秒钟一个声道采集了44100个样本（数值），如果一个样本用2个字节（即16bit）来表示，则对于双通道的同时采集（相当于两个话筒输入），一秒钟占的字节数是：44100*2*2=176400，约176kB，这样采集下去，如果不作处理，则大小不是一般的磁盘与带宽能够接受得了的，所以才会有编码压缩的引入。

那为什么不使用10hz来采集以减小体积呢？

因为10hz不能还原或逼*原模拟信号（采集后的数据，最终是要播放即转换成模拟信号的）。这里有一个采样定理，即如果想还原出模拟信号，则采样率不能低于模拟信号的最高频率的2倍，也就是对于最高频率的一次全振动内，至少也要采到两个点。对于人耳来说，听到的频率范围是20hz到20khz，所以可以认为最高的模拟信号的频率为20khz，那么采样的频率就要达到40khz才能保证还原模拟信号。

而至于常见的是44.1khz，而不是40khz，这跟索尼有关，当时索尼公司正是人生的巅峰，而他使用了这个值，行业就都跟风去了。

（四）量化与编码

采样得到样本后，用多少二进制位去表示它，这个就是量化，而多少位则为量化精度（位深）。

一般位深为16bit、24bit或32bit。

对于16bit，2^16=65536，20log(65536)约等于96dB，也就是16bit能表示96分贝的能量变化。从安静环境的30dB到演唱会的120dB，96dB都基本能覆盖上了。16bit时的1bit就相当于6dB。

24bit与32bit也是量化精度的选择，因为会比16bit更细腻，但占的空间也更大。

极端一点，如果选择1bit来表示会怎么样？

1bit只有两个值，即0跟1，那它对应的电*值就只有两个等级，比如0dB跟100dB，中间的音量都听不到，结果就是表示的0dB你听不到，而表示的100dB又基本不出现，于是就什么声音都听不到。如果用2bit来表现，就有4个值，对应的电*等级就有4级，但层次还是不分明，不能细腻地表示变化。

然后是编码，这里的编码是指采样后电*值的表示方式。

pcm（脉冲编码调制）是常用的音频编码方式，也就是对每个采样的样本，用最接*的电*值（电*值的范围由量化精度决定）去表示，每个样本互相独立。

pcm也表示编码格式。pcm编码格式在表示上，还可以细分为很多种，比如pcm_s16be、pcm_f32le、pcm_alaw之类。

显然，pcm编码是没有压缩的。

除了pcm编码格式（同时pcm也表示一种采集方式），还有一种有名的编码格式叫DSD，以44100的64倍的频率去采样，而每一个样本用1bit去表示，并且样本彼此关联。

好了，总结一下，本文主要介绍的是声音的采集过程以及相关的概念，同时也介绍了声音的振幅与频率的概念。有缘再见，see you。

动动脑，不会老

多媒体

多媒体开发（9）：我是声音

（一）电*化

（二）放大

（三）采样

（四）量化与编码

相关

[Tools] 多媒体视频处理工具FFmpeg

单词积累之多媒体

多媒体开发（10）：提取图片以及位图保存

多媒体开发（3）：直播

多媒体元素包括哪些

@media 多媒体查询(响应式布局)

标签