音视频基础-音频基础-01

本文基本逻辑:声音的定义是什么 → 声音有哪些特征 → 怎样对声音进行数学描述 → 怎样对声音进行数字化 → 数字音频数据是什么

『声音』是我们司空见惯再熟悉不过的一种物理现象。我们唱歌发出声音,用耳朵听到声音,用手机记录并分享声音;如果作为音视频开发人员,我们还会在工作中处理众多声音数据。但是,你真的了解『声音』吗?

如果你自信满满,心想『当然了』,那可以试试回答这个问题: 从我们耳朵听见的『声音』,到我们用手机、电脑所处理的『音频数据』,其中经历了什么? 如果你细思起来,感觉还有疑问,不妨继续读下去,和我们一起略略探讨一下:日常开发工作中处理的音频数据,是如何从一种物理现象转变而来。这个探讨也许无用,但可能会有趣。

探讨这个问题,至少包含了两个大的认知过程:

  • 1)用科学研究的方法对一个日常现象进行物理定义、特征探索、规律发现、数学描述的过程;
  • 2)用信息处理手段对物理现象进行数字化的过程。

当我们用这样的视角回头去看这个问题时,也许可以把它细分成下面几个子问题:

  • 声音的定义是什么?我们需要通过下定义来界定一种物理现象的范围,才好继续研究下去。
  • 声音的定义是什么?我们需要通过下定义来界定一种物理现象的范围,才好继续研究下去。
  • 怎样对声音进行数学描述?数学是描述物理现象、探索物理规律最好的语言。对物理现象的数学描述也是将其进一步数字信息化的基础。
  • 怎样对声音进行数字化?数字化是物理世界通向信息世界的手段。
  • 怎样对声音进行数字化?数字化是物理世界通向信息世界的手段。

1、声音的定义是什么?

『声音』是振动产生的声波,通过介质(气体、固体、液体)传播并能被人或动物听觉器官所感知的波动现象。

以上便是声音的定义,它将声音界定为一种波动现象,这样就可以针对性的在『波』这个物理概念的范畴里去研究它。当然,如果我们在研究中有新的发现,能颠覆原有的认知,从而重新定义它,也不是没有可能。

声音是由物体振动所产生。在振动介质(空气、液体或固体)中某一质点在平衡位置附近来回发生振动,并带动周围的质点也发生振动.

具体来说,当振动物体向外移动时,它会推挤紧挨着它的空气分子,使这些分子向外移动并挤压邻近的空气分子,造成一个压力增高的区域,即压缩波。相反,当振动物体向内移动时,它留下了一个空间,使得周围的空气分子向这个空间移动,填补空缺,从而在该区域产生一个压力降低的区域,即稀疏波。

这种压缩和稀疏的波动沿着介质传播,形成了声波。因此,周围的质点会因为振动源的振动而被带动,同样开始在其平衡位置附近振动。这就是声音如何在介质中传播的基本原理。每个质点都不会离开其原始位置太远,它们只是局部地来回振动,而声音的传播是通过这种振动的能量和动量在介质中的传递实现的。

image

image
[图片] 人耳解剖结构图

要提取声音的特征,首先要感知到它,人类的听觉感知系统是一个复杂的系统,如下图所示。它是怎么感知声音的呢?简单来讲,声音作为一种机械波,通过空气传播到人耳,在人耳中转变为神经动作电位,神经脉冲到达大脑,人从而感知到声音。至于具体细节,我们就不在这里做过多探讨了。

2、声音有哪些特征?

声音的特征是我们在感知声音并不断对其现象进行研究的过程中逐步识别和提取出来的。比如,我们很容易就能感知到声音有大有小;有尖锐有浑厚;不同的人说话,即使声音大小差不多,我们也能识别他们。我们对这些感知进行总结便提取出了声音的特征。

现在我们都知道,声音的特征就是大家熟知的『声音三要素』:

  • 响度:表示声音的大小。
  • 音调:表示声音的高低。
  • 音色:表示声音的特色。

基于声音的特征继续研究下去,我们还可以发现与之相关的规律和因果关系,并通过一些手段来形象化的展示它们。

人耳能感觉到的声波频率范围在20~20000Hz,称为音频波。在这个频率范围以外的振动波,就其物理特性而言与声波相似,但对人类不引起声音感觉。声速亦称音速,是声波通过介质传播的速度,它和介质的性质与状态(如温度)等因素有关。当温度为22℃时,空气中声速为334.8m/s,水中声速为1440m/s,钢铁中声速为5000m/s。

对于单频率的振动,通过波形图来看声音的相关信息是很简单明了的。而实际情况中,我们听到的声音往往是复杂振动的叠加,比如下图这样:
image

对于上图这样单频率的振动,通过波形图来看声音的相关信息是很简单明了的。而实际情况中,我们听到的声音往往是复杂振动的叠加,比如下图这样:

image

将该复合波形进行傅里叶变换,拆解还原成每个频率上单一的正弦波构成,相当于把二维的波形图往纸面方向拉伸,变成了三维的立体模型,而拉伸方向上的那根轴叫频率,现在从小到大每个频率点上都对应着一条不同幅值和相位的正弦波。

下图是一个声音的波形图(上部分)和频谱图(下部分)的示例:
image

其中,波形图比较简单,横轴是时间,纵轴是响度,并区分了左右声道。

但频谱图相对我们上面讲的定义要更复杂一些了,这里的频谱图是一个三维图,其中横轴是时间,纵轴是频率(这里用了音调表示,比如 A5(880) 对应的频率是 880Hz),颜色亮度表示响度。所以频谱图相对于波形图,是包含有更多信息的,唯一的缺点就是无法表示整体音量的大小,所以一般和波形配合使用来辨别声音特征。

-->