跳到主要内容

采样率、位深与好音质的标准

· 阅读需 11 分钟

当我们打开音乐平台准备购买会员时,面对 8 种不同的音质(Audio Quality)选项,该如何选择?今天我们来深入探讨音质背后的技术原理。

致谢: 本文主要内容基于「HEM Records」的视频《什么是「音质」?听歌网站的会员到底怎么选?》,在原视频基础上进行了深入解读和事实核查。感谢原作者的精彩讲解!

采样率的故事

什么是采样率?

根据奈奎斯特-香农采样定理,要完整还原一个声音信号,采样率必须至少是人耳可听频率范围的两倍

💡 为什么必须是"两倍"?

想象一下拍电影时的车轮:

  • 当车轮转得很慢时,摄像机能拍清楚每一帧

  • 当车轮越转越快,超过一定速度后,你会看到车轮好像"倒着转"了!

  • 这就是混叠现象:快速的运动被误认为是慢速甚至反向的运动

同样的道理:

  • 如果采样速度不够快(少于 2 倍),高频声音会被"伪装"成低频声音

  • 比如:一个快速振动的声音,可能被误认为是慢速振动

  • 原始信息永久丢失,就像倒转的车轮无法还原真实转速

所以采样率至少要 2 倍,才能"抓住"声音的真实面貌!

  • 人耳可听频率范围:20-20,000Hz

  • 理论最低采样率:20,000 × 2 = 40,000Hz

按理说 40,000Hz 就足够了,但为什么最终定为 44,100Hz?

44,100Hz 的诞生:兼容电视的妥协

1980 年,索尼和飞利浦的难题

制定 CD 数字音频标准时,面临一个现实问题:必须兼容当时的电视帧率

  • 欧洲电视:25 帧/秒

  • 美国电视:30 帧/秒

工程师们经过计算,找到了一个能同时兼容两种帧率的采样率:44,100Hz

标准的力量

从此,全球音频厂商都采用这个标准:

  • CD 播放器

  • 音箱

  • 数字录音设备

  • 音乐制作软件

数十亿设备遵循这个标准,使得 44,100Hz 一直延续至今,成为主流音乐平台的标准采样率。

48,000Hz 的诞生:DVD 时代的新标准

新问题出现

CD 标准使用约 10 年后,DVD 开始普及,电影也被刻录到光盘上。但电影的帧率是 24 帧/秒,44,100Hz 无法被整除。

工程师们又计算出一个能兼容三种帧率的采样率:48,000Hz

无法逆转的分裂

但此时音乐行业已经全面采用 44,100Hz 标准,数十亿设备无法切换回来。这导致了今天我们看到的终极分裂:

  • 音频平台、音乐制作软件:44,100Hz

  • 视频平台、视频剪辑软件:48,000Hz

位深的重要性

什么是位深?

如果说采样率决定"每秒记录多少个点",那么位深决定"这些点有多精确"

位深相当于音频的"分辨率",具体指能记录多小的音量

位深与音量范围的关系

每增加 1 bit,大约可以多记录 6dB 的音频范围:

  • 8-bit:最小音量 -48dB(背景噪音明显)

  • 16-bit:最小音量 -96dB(人耳基本听不到噪音)

  • 24-bit:最小音量 -144dB(完全静音)

CD 为什么选择 16-bit?

索尼和飞利浦的实验

在完全静音的录音室测试后发现:

  • 人耳能听到的最小环境噪音约在 -100dB 到 -90dB 之间

  • 16-bit 可以记录低至 -96dB 的声音

  • 此精度下产生的底噪,人耳已经无法听到

为什么不选择更高的位深?

但他们没有选择 24-bit 或 32-bit,因为:

  • 位深越高,存储空间越大

  • CD 容量限制(传说为了装下贝多芬第九交响曲的 74 分钟)

为什么现在推荐 24-bit?

位深更容易进化

与采样率不同,位深的提升不涉及硬件兼容性问题:

  1. 现在主要通过流媒体平台听音乐,不涉及硬件设备

  2. 增加位深只会让存储空间增加 1.5 倍

  3. 只要平台愿意承担带宽成本,音乐人就敢提高位深

当前行业现状:

  • 音乐制作人工作时:32-bit

  • 最终母带输出:主动降为 24-bit

  • 主流流媒体平台:已普遍接受 24-bit

如何选择好音质?

什么是真正的好音质?

对于绝大多数听众来说,真正健康的音质需求应该是:

"让我听到和这首歌的制作人听到的一样的声音"

这个声音在 90% 的情况下只需要满足:

  • 采样率:44,100Hz

  • 位深:24-bit

这就是当今绝大多数母带工程师使用的最终母带格式。

根据预算的音质选择建议

预算有限

320kbps MP3 就足够了

  • 2000 年后 MP3 压缩技术已经非常成熟

  • 能够骗过 50% 的听众

预算充足

44,100Hz / 24-bit 无损音质

  • 这是母带工程师自己听到的最终版本

  • 最能还原制作人原意的声音

预算无上限

192,000Hz / 32-bit

  • 不符合任何发行标准,需要定制

  • 必须从录音阶段就开始监听

  • 对应的麦克风高频捕捉范围需达到 96,000Hz

  • 人耳上限只有 20,000Hz,相当于录制超声波

  • 图个体验

警惕过高的参数

某些平台提供的"超清母带"(如 192,000Hz)可能存在问题:

  1. 大多数制作人使用 44,100Hz 制作

  2. 平台强行升采样到 192,000Hz

  3. 升采样容易引发各种小问题

  4. 甚至相当于替母带工程师重新做了一次母带

从文件到耳朵——音质在播放中的损失

理解了采样率和位深后,你可能会问:我下载了高品质的音频文件,就能听到高品质的声音吗?

答案是:不一定。音频文件的质量只是起点,从文件到你的耳朵,中间还有很多环节会影响最终的音质。让我们以 AirPods 听 Apple Music 为例,看看这个过程中发生了什么。

案例:AirPods + Apple Music 的音质之旅

理想情况:

  • Apple Music 提供 44,100Hz / 24-bit 无损音质

  • 理论码率:44,100 × 24 × 2 = 2,116,800 bps ≈ 2,117 kbps

实际情况:

经过网络搜索验证,实际播放过程比我们想象的复杂得多:

第一步:音频文件准备好了

  • Apple Music 的音频文件:44,100Hz / 24-bit(音乐标准)

  • 理论上这是高品质的无损音频

第二步:遇到了蓝牙传输的瓶颈

  • AirPods 使用蓝牙 AAC 编码传输

  • AAC 最高支持 44.1kHz 采样率,但最大码率只有 256kbps

  • AirPods 系统实现倾向于使用 48kHz 作为默认输出(视频标准)

第三步:系统进行了多重转换

  1. 有损压缩:iOS 系统将 2,117 kbps 的无损音频压缩为 256kbps AAC 编码

💡 256kbps 是如何计算的?

虽然 AAC 是有损压缩,但我们可以用理论计算来理解这个数字:

假设参数:

  • 采样率:16,000Hz(AAC 压缩后的有效采样率)

  • 位深:8-bit(压缩后的有效位深)

  • 声道数:2(立体声)

计算过程:

码率 = 采样率 × 位深 × 声道数
= 16,000 × 8 × 2
= 256,000 bps
= 256 kbps

相比之下,CD 音质的无损码率:

码率 = 44,100 × 16 × 2
= 1,411,200 bps
= 1,411 kbps

256kbps 只有 CD 音质的 18%! 这就是为什么蓝牙传输无法实现真正的无损音质。

  1. 采样率转换:如果 AirPods 工作在 48,000Hz 模式,还需要将 44,100Hz 转换为 48,000Hz

  2. 潜在问题:强行升采样容易导致高频相位偏移甚至高频噪音

💡 什么是高频相位偏移?

想象两个人同时喊"一二一":

  • 如果步调一致,声音会叠加,更响亮

  • 如果一个喊"一"时另一个喊"二",声音会互相抵消,变小甚至消失 ****相位**就是声波的"步调"——波峰和波谷的位置。

当采样率转换时(比如 44,100Hz → 48,000Hz):

  • 系统需要"插值"生成新的采样点

  • 高频部分的波形容易被"算错",导致波峰波谷位置偏移

  • 结果:高音部分可能变得模糊、失真,甚至产生刺耳的噪音

这就像把一幅画放大时,细节部分容易变形——采样率转换对高频声音的影响也是如此。

最终结果:

即使 Apple Music 提供了无损音质(2,117 kbps),通过 AirPods 蓝牙播放时,实际听到的是 256kbps AAC 有损音频,损失了大量信息。

为什么会这样?技术限制与设计选择

蓝牙传输的根本限制

蓝牙 AAC 编码本身就是瓶颈。即使采样率完美匹配,256kbps 的码率也无法传输真正的无损音质。

为什么不能同时完美支持 44.1kHz 和 48kHz?

如果要同时完美支持两种采样率,需要:

  1. 更复杂的 DSP 芯片设计 - 需要动态切换采样率

  2. 更多的功耗 - 实时采样率转换消耗电量

  3. 更复杂的固件逻辑 - 需要检测音源并自动切换

  4. 可能增加音频延迟 - 切换过程需要缓冲

但最根本的问题是:即使采样率完美匹配,256kbps 的码率也无法传输真正的无损音质。

苹果生态的矛盾

这个案例特别讽刺的地方在于,这是苹果自家产品之间的矛盾:

  • Apple Music 大力推广无损音质(2,117 kbps 起)

  • 所有 AirPods 型号都不支持无损播放

  • 即使是 AirPods Max 有线连接,也要经过 DAC 转换,无法实现真正的无损

结论:用 AirPods 听 Apple Music 的无损音质,实际上听到的仍然是 256kbps AAC 有损音频,与 Spotify 的最高音质(320kbps)差别不大。

这个案例告诉我们什么?

  1. 音频文件质量 ≠ 实际听到的音质

    • 文件可能是无损的,但播放设备可能会压缩
  2. 播放链路中的每个环节都很重要

    • 音频文件 → 播放器 → 传输方式 → 播放设备

    • 任何一个环节的瓶颈都会影响最终音质

  3. 无线传输是当前的主要瓶颈

    • 蓝牙编码的码率限制(256-320kbps)

    • 远低于无损音频的要求(1,411kbps+)

  4. 有线连接仍然是追求极致音质的最佳选择

    • 避免蓝牙压缩

    • 避免采样率转换

    • 更接近音频文件的原始质量


总结

  • 44,100Hz 是为了兼容电视帧率而诞生的历史标准

  • 48,000Hz 是为了兼容电影帧率,导致了音频/视频行业的分裂

  • 24-bit 是当今音乐制作的标准位深

  • AirPods 的蓝牙传输是音质瓶颈,即使 Apple Music 提供无损,也会被压缩到 256kbps

  • 好音质 = 44,100Hz / 24-bit,这是最能还原制作人原意的声音

记住:音质不仅取决于音频文件的质量,还取决于你的播放设备。选择合适的音质标准,配合好的耳机或音箱,才能真正享受音乐。


极客技巧:如何查看音频文件的参数?

如果你想亲自验证音频文件的采样率、位深和码率,可以使用 FFmpeg 工具包中的 ffprobe 命令:

ffprobe -v error -show_entries stream=sample_rate,channels,bit_rate,bits_per_raw_sample -of default=noprint_wrappers=1 your_audio_file.mp3

输出示例:

sample_rate=44100
channels=2
bit_rate=320000
bits_per_raw_sample=N/A

参数说明:

  • sample_rate: 采样率(Hz)

  • channels: 声道数(1=单声道,2=立体声)

  • bit_rate: 码率(bps)

  • bits_per_raw_sample: 原始位深(有损格式通常显示 N/A)

安装 FFmpeg:

  • macOS: brew install ffmpeg

  • Ubuntu/Debian: sudo apt install ffmpeg

  • Windows: 从 ffmpeg.org 下载

参考资料

男女思维没有差异

· 阅读需 2 分钟

看了黄执中讲的《在沟通中,男女思维没有差异》,我表示非常认同。

我们在沟通中表现的直接,只是因为自己所在权利的高位上。试想一下,如果我面对一个陌生人,通常情况下,我们的话语会温柔许多。这不是因为突然的善意,而是因为我们之前并没有一个所谓的权利不平等的关系或者当前的关系不明。

女生在社会上,通常在一个弱势的地位上。这表现在很少的女性高级官员,女性高级管理者。这可能是因为生育导致的职业歧视上,这种歧视在于更少将女生放在核心岗位上,因为生育可能导致岗位的空缺是企业中不愿承担的风险。尽管我不认为这是一个多大的风险,和市场中的其他风险对比来说。只不过这个风险更明确,导致被特殊对待了。

以前我不太理解和习惯用“规训”这个词,但是在社会上还是能够慢慢体会出来。很多隐晦的潜规则甚至明面的规则,加在每个人身上,导致了人们的思维倾向。黄执中限定在了沟通领域,但我想说其实可以是任何方面。

用嘴巴说出来:写作新方式

· 阅读需 2 分钟

写作的本质目的

写作并不是为了写作本身,而是为了让自己的思考更加清晰。正如Sam Altman所展示的,我们可以采用一种更自然、更灵活的创作方式。

语音转文字的创作流程

第一步:语音记录

  • 使用手机或任何电子设备记录想法

  • 在有灵感的瞬间,直接用嘴巴说出自己的思考

  • 不受时间和地点限制,随时捕捉思维火花

第二步:AI辅助整理

  • 利用语音转文字工具将录音转换为文本

  • 借助AI帮助整理和优化表达

  • 形成初步的文字框架

第三步:深度创作

  • 在文字基础上进行进一步的创作和完善

  • 补充细节,调整结构,优化表达

这种方式的优势

便捷性:不需要一开始就坐在电脑前码字,可以在任何有想法的时候立即记录。

即时性:相比传统的纸质笔记本和笔,录音更加方便快捷,能够完整保留思维的连续性。

自然性:说话比写字更自然,思维流动更顺畅,不会因为书写速度限制思考的节奏。

结语

这种"先说后写"的创作方式,让我们能够更好地捕捉和发展想法,真正实现随时随地的创作。它不仅提高了创作效率,更重要的是保持了思维的原始活力。

其实不必都用电子设备

· 阅读需 2 分钟

说个好玩的,其实我的电脑里面也是一团糟。

虽然我是程序员,但是我的笔记散落得到处都是。没有一个比较统一的笔记格式,也没有一个常用的笔记软件。总是不停的更换,一如我小时候写点东西,总是不太能找到上次写的那个本子,而是重新开一本。所以等到寒暑假在家整理本子的时候,会发现大量的本子都只是用了前面的几页。

物理世界的本子其实还算好找的。但是电脑里面的“本子”就没有那么直观的。你需要找到那个软件,找到那个按钮打开那个文件夹,或者想起来当时取了什么标题,然后去搜索它。

无论是什么样的优秀的笔记软件,都不会有物理世界的本子那么简单和直观。这也是我为什么喜欢那种功能单一,交互简单的软件的原因。

我甚至觉得世界上所有的软件都应该简单,我们真的没有那么多的心智去猜我下一步应该做什么了。电子设备其中创造了一个无比吸引人的世界,但终究还是没有现实世界多姿多彩。

我们能在电子设备创造的场景中流连多久呢?

公司的使命就是创造价值

· 阅读需 1 分钟

在 X 上看到有人总结创业公司的经验

我在公司里的个人介绍 README 里前三条是这样写的

  • 规范地做完,比完美重要。
  • 我们是来一起构建一个赚钱的公司,顺便维护一个大家都体面工作的文化。
  • 简单好维护效率高 比 极致性能极致代码优化 重要。

就是因为我以前犯过这里面的每一个错误,尤其是对于创业公司,每一条都很重要。

我感觉这确实是创业公司容易反复犯的错误。

看了一场爵士乐演出

· 阅读需 3 分钟

昨天我去看了一个爵士乐表演。

是一个四重奏,由于欣田(主唱)、顾娙(键盘)、程逍月 Jerry(贝斯)和刘延超(鼓手)四人组成。

这是我第一次在现场看爵士乐表演,之前也只在油管里面看过。

因为我最近开始学贝斯,所以有打算“偷师”一下。结果没想到 Jerry 居然在场上用两种乐器,而且我还不认识。是因为贝斯的工作太少了吗?要得会两种乐器才能分一份钱?😂 开玩笑,其实我的感觉还是非常酷啦!

整个表演大概一小时十分钟多,五六首歌。欣田在两首歌之间会介绍一下曲目和乐手。她说致敬很多知名的爵士歌手,这符合这次表演的主题——致敬女性爵士歌者,但提到的名字我一个都不认识(这很正常)。整体听下来还是很好听的。

由于我对音乐还不太了解,就评价下其他部分吧。

这一次场地是摆了三排折叠椅的,但是我感觉如果是站着,体验会更好。因为站着可以自由的随音乐抖动,不会受着椅子的束缚。在演出中间我都有想法是不是跑到后面去站着,但是最终还是没有冲动一下。可能每个人感受不一样,这只是我的感受。

然后就是贝斯。我有看到 Jerry 用的是一把 Fender 的四弦 Jazz Bass,如果我没看错,只有三个旋钮,是一把被动琴。然后他的曲目中间还会调下三个旋钮,这是我不太敢的,因为我看视频的时候老师建议在调好后不要动他们。不过像 Jerry 这样的老手,就完全得心应手了。我还注意到 Jerry 的左手戴了一个黑色薄手套。不知道什么材质,可能是方便按弦的?不太懂,也许未来我也可以尝试一下。

由于只有一个方向,而且被谱架和话筒杆挡住一部分,其实我对 Jerry 的指法还没看出什么门道来。只是知道他右手总是在琴颈拾音器上或靠近它的地方弹,这可能是因为音色的考虑吧。不像我现在还是在两拾音器中间位置弹,并且两个拾音器音量都一直调最大。

整个过程中我关注贝斯手以及时不时要举手机录个像,所以有点稍稍不够沉浸,不过整体感受还是可以的。

接下来我应该还会去看更多的演出,期待!

描述我的工作——前端开发

· 阅读需 2 分钟

我的工作是做网站,并且只是其中的一小部分——能看到的部分。

你打开一个网站时,能够看到什么?一些文字,一些图片,甚至一些视频?我的工作就是将他们以一种可能复合了某种规律和意图的方式呈现在你面前。

这其中可能会有叫做产品经理的人来说要做什么,比如这得有个新闻列表。然后可能会有叫用户界面设计师的人来说这个列表应该是图片加文字的方式,图片需要圆角,文字最多三行其他省略等这些细节的要求。而我就是把这些要求给实现的人。这些是狭义上的职责,如果团队人很少的话,可能我就得把上面一到两个人的工作也包了。

为了呈现一个最终的画面,作为开发,我需要从某个地方拿到文字、图片、视频、音乐和字体等等被称为资源的东西,再以被称为代码的东西编织起来。那么从哪里拿呢?服务器。你现在看网页的浏览器和服务器之间以一种叫网络的东西相连,这部分就不细说了。

网站这个东西不像建筑,做好了放在那里就长久在那里。网站它是动态的,大部分资源都不会长久保留在电脑里,而是每一次访问都要向服务器要资源。我的工作之一就是要通过代码将哪些资源要留在电脑里,留多久给确定下来。有的时候还需要主动问服务器,这个资源更新了吗?如果不需要更新就不再次要资源了。

如果你对网站的开发有基本了解,你会知道分为前端和后端两个基本分工。而后端的工作就是处理那些看不到的部分。比如数据怎么在服务器中存储,用户有没有权限拿到这个数据。前端除了完成能看到的部分外,还要和后端合作,将需要什么告诉服务器,以及怎么告诉服务器我是谁。

我的英语学习困境与思考

· 阅读需 2 分钟

我是一个行动力平平的人,而在英语这件事情上,更是糟糕透顶。

我缺少学英语的动力吗?无论是 Youtube 上那些宝藏一样的技术 Talks,还是搜索信息时使用英语能够获得更好的结果,亦或者我可以和使用英语的同事们流畅的交流。这些都是显而易见的好处。

我为什么还没有坚持学英语?恐怕最重要的原因就是各种翻译软件,特别是 LLM 出来以后,我极度依赖他们。以至于哪怕一句话有70%的意思我都明白,我都恨不得赶快使用快捷键调用翻译软件将他们完全翻译出来。这样做的坏处十分明显,我可以阅读和书写英语,但是听力和口语完全止步不前。

我也能做过一点努力。比如将手机和电脑改为 English 模式。卸载了 B 站,看起了 Youtube。注册了只关注发英文内容博主的 X 帐号。我妄图使用各种被动方法,来给我的英语水平带来一些提升。

《好东西》影评

· 阅读需 3 分钟

去看这部电影之前的几天,我在播客 bibiedit 里听到两位主播强烈推荐它,并且了解到这个电影是和女权有关的。影片开幕显示标题时,左下角写着的英文标题 Her Story 再次印证了这个主题。

只是我没想到这个电影这么好笑,比很多标榜喜剧片的电影还好笑。这部电影的特点就是演员们说话特别快,信息量特别大。而且还包含很多反转和意外,影院里不断得爆发笑声,气氛热烈。

(以下包含剧透)

我买了 Xbox

· 阅读需 3 分钟

我之前从未买过游戏机。

今年五一有几天假,并且不打算出门。在二号晚上我果断选择下单了 Xbox Series S。

购物清单

项目价格购入时间
Xbox Series S 1T 黑色 双手柄套装2,532.152024-05-02
Xbox Game Pass Ultimate 一年328.002024-05-03
合计2,860.15

购买理由

为什么不是电脑而是主机?

  • 主机小白友好。使用手柄的交互方式不仅对小朋友还是老人还说都很简单,大家可以一起玩。
  • 主机性价比很高。不需要买昂贵的显卡,主机的优化就足够我玩大部分游戏。

为什么是 Xbox 而不是 PS5?

我对游戏没有特别偏好。Xbox Game Pass 订阅服务能够让我玩很多游戏,并且不需要额外花钱单独买游戏。

为什么是 Series S 而不是 Series X?

我对画质没要求。现在用的也是家里一台用了十年的电视,并且短时间也不打算更新。所以更好性能的主机对我来说没有太多价值。

为什么是 1 T 而不是 512 G?

这单纯是我懒得去折腾额外的硬盘。并且 512 G 的设备总是让我感觉不太够。

游戏清单

这几天我玩了一些游戏,感觉不错的附在下面。

  1. it takes two(双人成行)
  2. OverCooked! 2
  3. Human fall flat(人类一败涂地)
  4. Orcs Must Die! 3
  5. Phoenix Wright: Ace Attorney Trilogy(逆转裁判123成步堂精选集)
  6. 极速竞技:地平线 5

其实也不需要我推荐,Xbox 里面有很多列表,其中挑挑拣拣就能找到好玩的游戏。