声音本质上是一种机械波,通过空气分子的疏密变化进行传播。当人说话或乐器发声时,振动源(如声带或琴弦)会使周围空气分子产生周期性压缩和稀疏,这种压力变化以波的形式向四周扩散。我们可以用三个关键参数来描述声波特性:
麦克风作为声电转换设备,其核心部件是振膜。当声波到达麦克风时,振膜会随气压变化产生同步振动。以动圈麦克风为例,振膜带动线圈在磁场中运动,根据电磁感应原理产生变化的电压信号。这个过程中:
专业录音中常用电容麦克风,其灵敏度更高但需要48V幻象供电。振膜与背板形成电容,振动时电容值变化导致电压改变。
采样保持(S/H)电路是ADC的前端关键组件,其工作分为两个阶段:
典型采样时钟频率与输入信号的关系:
code复制模拟信号: ╱╲╱╲╱╲╱╲
采样时钟:┌┐┌┐┌┐┌┐
采样输出:────┐┌────┐┌───
根据奈奎斯特定理,要完整重建信号需要采样率至少是信号最高频率的两倍。实际应用中需综合考虑:
不同场景的典型采样率选择:
| 应用场景 | 采样率 | 保留频段 | 数据量(单声道) |
|---|---|---|---|
| 传统电话 | 8kHz | 300-3400Hz | 8KB/s |
| 网络语音 | 16kHz | 50-7000Hz | 16KB/s |
| 音乐流媒体 | 44.1kHz | 20-20000Hz | 44.1KB/s |
| 录音室母带 | 96kHz | 20-40000Hz | 96KB/s |
量化过程将连续的模拟电压映射到离散的数字值。以16bit量化为例:
编码阶段将量化后的整数值转换为二进制。PCM编码直接存储样本值,而压缩编码如MP3会进行频域变换和心理声学模型处理。
WAV作为最常用的无损格式,采用RIFF容器结构:
plaintext复制Offset Size Content
0 4 "RIFF"标识
4 4 文件总大小-8
8 4 "WAVE"标识
12 4 "fmt "子块
16 4 子块大小(16)
20 2 音频格式(1=PCM)
22 2 声道数
24 4 采样率
28 4 字节率
32 2 块对齐
34 2 位深度
36 4 "data"标识
40 4 数据大小
44 ... 音频数据
立体声数据存储为交替的左右声道样本:
code复制L0 R0 L1 R1 L2 R2 ...
| 格式 | 类型 | 压缩率 | 音质特点 | 典型应用 |
|---|---|---|---|---|
| WAV | 无损 | 1:1 | 原始质量 | 专业录音、音频处理 |
| FLAC | 无损 | 2:1 | 与WAV相同 | 音乐收藏 |
| MP3 | 有损 | 10:1 | 丢弃高频细节 | 流媒体、移动设备 |
| AAC | 有损 | 12:1 | 比MP3保留更多高频 | iOS设备、视频音频 |
| Opus | 有损 | 15:1 | 语音优化,低延迟 | 网络通话、游戏语音 |
当采样率低于奈奎斯特要求时,高频成分会"折叠"到低频区,产生失真的低频信号。解决方法:
16bit量化理论动态范围计算:
动态范围(dB) = 6.02 × 位数 + 1.76 = 98dB
改善方案:
多设备录音时可能出现采样时钟不同步,导致相位漂移。专业解决方案:
ABX双盲测试方法:
在实际录音工程中,我习惯先录制30秒环境底噪,后期可用频谱分析工具针对性降噪。对于语音内容,在300-4000Hz范围适当提升3dB可增强清晰度。