编码的陪伴 - 河狸期刊网

整理东西，翻出一台索尼随身听，机器貌似还没坏，但已找不到能播的磁带。感慨大学时我还经常带它绕着校园跑步，不过短短十几年时间，不仅随身听成了古董机，就连与它一起繁荣的唱片业也变成了“夕阳产业”。据说，上世纪七十年代末索尼刚推出随身听时，曾雇佣年轻人划着旱冰鞋带着随身听招摇过市，并且一定要放大音量，故作陶醉状以示众人。不得不承认，这个广告策略展示的青年市场定位，还是十分符合我那时的个体使用经验的。1990年代末我以学英语为名，从父母手里“骗”到钱，买了第一台随身听，在大部分时间用它听了孙燕姿和F4。但随身听之于我，完全不止娱乐消费那么简单。当大人们的絮叨让我无法忍受又不能制止时，它为我建筑了一道抵抗“外界入侵”的声音屏障当“三点一线”的日子让我想要逃离又不能改变时，它为我提供一个可以重构空间体验的“可变音轨”（好像为同样的视觉画面配上不同音轨，就能产生完全不同的效果一样）。换言之，这是一个能让我以自己的方式控制私人声音环境进而在一定程度上控制个体经验的神奇工具。每次与它连接，都能带给我一种“我的地盘我做主”的幻觉和安慰。

如今，随身听和我这一代的青少年时代都已是过住更确切地说，传统声音产业及其建构的经验形态都已是过往。回想十年前开始冷落随身听，大概还是因为有了新欢MP3。当时的MP3播放器以一种硬件设备的形态出现，以至于很多人都误以为它（就像随身听之于传统收音机）不过是一种更加时髦的小家电。但哪知，作为一种本质上既非硬件也非内容的音频压缩编码，MP3竟能以“数据格式”这种毫不起眼的方式，激起曾以硬件为依托的声音产业的深层变革。几十年来，声音产品在大众文化中的传播和消费方式发生了根本变化，在现代日常生活中的使用场景也获得了大大拓展，其定位也已远远超出酷爱流行音乐的青少年，成为了与国民日常生活诸多场景绑定在一起的“陪伴性”的声音。

从定位青年的表达性的声音，到面向国民的陪伴性的声音，十几年来，可移动的声音在日常生活中的意义发生了重大变化。但要理解这一切如何发生，除了需从声音的产业应用和社会意义着眼，更需要从使这一切可能的底层声音编码格式MP3入手。

编码听觉：嵌入格式的“耳朵”

1988年，国际标准组织（ISO）成立了一个被称为MPEG （Moving Picture Expert Groups）的小组，该小组的使命之一就是为正在兴起的数字音频产业制定数据压缩标准。参与标准制定的机构向MPEG提交了14份数据压缩提案，根据所依托的技术，它们被分为4组，经过漫长的测试和谈判，直至1992年，作为产业利益的平衡结果，最终有2组编码进入正式标准。飞利浦、松下等支持的那组成为了后来的MPEG-Layer2，AT&T、弗劳恩霍夫（Fraun-hofer，欧洲最大的应用科学研究机构）等支持的那组则是后来的MPEG-Layer3。而后者，就是今天我们常说的音频格式——MP3。其实，Layer2和Layer3相比，传输更少出错，编码也更简单，更省计算资源，同时它在卫星电视广播、VCD、DVD等传统声音产业有着广泛应用，早期比Layer3更能体现优势。但Layer3的压缩效率却大大高于Layer2，这意味着：同样大小的文件，Layer3压缩出的音频比Layer2的音质更高同理，同样音质的音频，Layer3比Layer2压缩出的文件更小。同时，这意味着，MP3更适合低比特率条件下的音频编码（1990年代流行的ISDN线上网速度是128 kb/s，MP3的比特率也被设定为128kb，s），可将CD音质的数字音频压缩到原大小的1/11，而不至于产生太大失真。虽然，MPEG在制定音频压缩标准时，很难想到未来的数据传输方式会逐渐脱离硬件，但随着互联网的兴起和普及，MP3确实以其更能适配网络传输的“轻量”优势脱颖而出，成为了迄今最成功的音频编码格式之一。今天，哪怕已经有了4G、5G宽带网络，诞生于电话线上网时代的MP3依旧占据着音频数据格式的垄断地位。

那么，MP3为何能实现音频数据的高保真压缩？换言之，为什么音频明明被压缩了，大部分人却很难听出？弄清该问题，还需从听觉心理学的原理说起。听觉心理学建立在这样的预设上声音的物理刺激不能等同于人类的听觉感知。比如，同样分贝的中频音和低频音，前者听起来会感觉更响。为了研究物理刺激和听觉感知间的关系，各种听觉模型被建立起来。而这些模型的一个重要应用领域，就是听觉科技。上世纪二十年代，美国电话行业大佬AT&T旗下的贝尔实验室提出，人耳对声音的敏感性只限于一定频率，语音的频段更只是上述可听波段中的一小段。因此，如果只在电话线中传输这一小段上的必要信息，把其余对于语音理解意义不大的“冗余”波段过滤掉，就可以在不影响语音的情况下大大压缩信号传输量。AT&T果断采用贝尔实验室的建议，在不增加基建投入的情况下，通过压缩信号就提升了4倍通讯服务能力。不难看出，这一做法的核心就是让所传输的声音信息去适配特定场景下的听觉需求和听觉能力，利用好人类的知觉局限，就能大大减少信号体积。而这一思路后来也成为了二十世纪信息工程的普遍策略。

与此同时，信息论和控制论助推了人们以“信息处理”的方式理解生物机能，在观念上铺平了信息代码和肉身感觉间的鸿沟。知觉编码——一个试图将人类知觉机制嵌入媒介编码的领域由此产生。MP3就在上述信息工程和知觉编码的交汇点诞生。换言之，它的压缩代码中内嵌了一个人类听觉模型，从而能够充分利用人类的听觉特征，实现音频数据的高效保真压缩。而其最大的特色就是对掩蔽的利用。原来，人类听觉存在着一种掩蔽现象。比如，两个声音同时出现，频率又比较接近，声音较大的就会掩盖较小的，后者就好像位于听觉“盲区”一样。随着声音治理术的发展，掩蔽发展成一种噪音治理手段。人们发现，其实不必彻底消灭噪音，只需把它“发配”到一个合适频段，让那个频段上的信息本身盖住它就行了。MP3就利用了上述掩蔽现象，把因压缩出现的失真和噪音分配到音频编码的特定位置，用该位置上的信息掩盖噪音。从而在效果上实现所谓的“保真”压缩。不难看出，MP3在编码音频的同时，也将它理解的人类听觉一并嵌入了其代码中。针对这一特定听觉模型，如果某些信息不必要，那就不必保留，如果某些噪音听不到，那也不必消灭。这也意味着，当MP3在处理声音时，其实预设了一个它想象中的“耳朵”，而这个耳朵又是建立在某种听觉模型的预设、噪音治理的观念、工程效率的诉求之上。因而，MP3绝非纯粹技术性的音频格式——作为一种人类感觉经验的特定编码，其运行自始至终带着特定理念和诉求。

那么，这些预设、观念和诉求是否会借MP3这一垄断性的音频编码格式，反过来塑造真实的人类听觉斫着MP3成长的一代人，和在大自然的声音或音乐会、HIFI、CD的声音中成长的一代人相比，是否有着更标准化、自动化和低敏感的听觉能力？

变革行业越来越“轻”的产业

在王一博为国内音频领域的垄断平台喜马拉雅做的品牌形象广告《爱就是陪伴》中，无论用户是“想看日出的第一缕光”“想躲开城市的喧闹～想整个下午放空晒太阳”“想在深夜一起听故事～想把自己藏起来谁也找不到”，还是“想去流浪就算走到世界的边界也不回头”，作为该平台声音人格化身的王一博，都会用充满磁性的嗓音深情脉脉地回答：“我陪你。”在这里，光芒万丈的偶像放下自己所有需求，甘愿以“陪伴性”的姿态伴随用户，满足各种奇葩需求。不得不承认，该广告的修辞性隐喻的确命中了当下音频流媒体的核心吸引力。如果曾经，宗教仪式和音乐会中的声音需要我们正襟危坐、聚精会神地倾听，广播和唱片产业的声音需要我们买设备、买唱片、花费精力财力去消费，那么今天流媒体中的声音，确实对用户不再有那么高要求，它在各种意义上将资源占用量降到最低，从而以一种近乎完美的“陪伴性”姿态，出现在国民日常生活中。那么，这种“陪伴性”姿态究竟如何可能，还要从MP3为二十世纪声音产业带来的变革说起。

必须承认，比起今天音频产业渗透在大众日常生活中的声音，我们很少注意大多数声音的格式是MP3。这是因为，MP3作为一种以压缩能力著称的编码标准，其发明初衷就是为了少占资源，少被关注它比其他数据格式所需空间更小，当播放它时，我们注意的不是MP3，而是声音。因而，有人也将MP3看作“容器性技术”的代表，正如海德格尔对罐子的论述，罐子内部的空和无，成就了作为容器的罐子。”MP3的价值就在于承载和容纳过往和现在的声音，而作为声音编码“容器”的它，则越是以非“侵入”的方式存在，越能给它承载的声音以展现空间。换言之，MP3以低“存在感”的方式存在着，是为了更有助于其被承载者获得“存在感”。正是以这种“以自身之空包容万物”的特性，MP3也改变了二十世纪的声音产业。

MP3为现代声音产业带来了巨大变革，尤其将其“少占资源、摆正位置”的气质带给了整个行业。梳理这一变化历程，有三个方面值得注意。

首先，是在设备上经历了去物质化。理论上，播放MP3本就不需专门硬件设备。最早还是其版权所有方弗劳恩霍夫为了推销MPEG-layer3标准，在1993年制作了第一批方便客户“试听”效果的硬件播放器。尽管之后，作为小家电的MP3曾在世纪之交以其身材小、容量多风靡一时，但最终证明，这不过是声音播放设备从硬件走向软件的过度形态。1995年，市面上推出了最早的MP3软件播放器Win-Play31996年，Windows Media Player的前身N etshow开始能播MP3：三年后，苹果的QuickTime开始兼容MP3。2007年，苹果更是以“自我淘汰”的远见，推出了几乎可以替代自家明星移动播放器iPod的智能手机iPhone。就这样，作为硬件的MP3还在风靡之时，各种软件播放器就已为其没落埋下了伏笔。

其次，是在声音上经历了去物质化。唱片行业作为二十世纪声音产业的代表，严重依赖于物质。无论是胶片、磁带还是光碟，本质上非物质的音乐，总要依托物质载体才能存在。因而产业只要把好物质流通环节，就可以控制音乐的发布和销售。这个情况到了二十一世纪遭遇了MP3的搅局。先是1995年，在“开源精神”的助推下，一个澳大利亚黑客破解了弗劳恩霍夫的MP3官方编码器，他将新编码器命名为“感恩弗劳恩霍夫”，供人免费下载。从此，懂点技术的人就可以免费将音频文件压缩为MP3格式了。与此同时，点对点传输技术助推了民间共享文化的发展，MP3则在音乐共享中扮演了重要角色。比如，1999年，数字音乐共享社区Napster创立，在宽带还十分稀缺的年代，有着高品质高效率压缩优势的MP3无疑成了该社区在传输音乐时的首选格式。近五千万音乐爱好者绕过传统唱片业，以分布式储存和交换的方式，共享着以MP3编码的海量音乐。尽管这一行为遭到了美国唱片业协会的反击，包括起诉MP3共享网站、MP3播放器厂商、MP3文件分享者，推动议会出台《点对点盗版防护法案》等法案，但最终却无法阻挡，音乐在数字时代以脱离物质载体的音频数据方式存在和流通。

最后，是促进了流媒体音频行业的兴起。经过了MP3和Napster的震荡，合法的在线音频产业终于开始形成。最早产生的是iPod/iPhone+iTune代表的“单曲付费下载”模式。但后来网速大大提升，同时“免费”商业模式走向成熟，最终成为主流的则是建立在“在线免费收听”上的音频流媒体。国内的喜马拉雅、QQ音乐和网易云音乐，国外的Sportify，几乎所有国内外音频巨头当下都是这样的模式。“在线免费收听”对于用户有两个便利。一是消费门槛较低，二是不需下载，因而可以把庞大音频库“带”在身边，随时搜索、随时调用。相比需要不断花费财力精力购买，还要找地方归置整理却不能随时享用的传统唱片收藏，这无疑极大降低了声音的消费门槛和灵活度。

不难看出，无论是硬件和内容的去物质化，还是消费门槛更低、调用更即时，所有变革背后，都站着MP3的身影。它们综合起来产生了这样一个效果从整个产业的角度，“听”这件事，在各个意义上都变得更轻、更小、更灵活。正是这一“少占资源、摆正位置”的姿态，为声音产业对国民日常生活的渗透和陪伴奠定了基础。有趣的是，尽管此时网速已大幅提升，同时也早已出现了压缩品质和效率比MP3都更高的音频标准，但比特率为128kb/s的MP3依旧是当下音频数据流的主流格式。这一方面说明了，作为一种垄断性的标准，MP3已形塑了人们的感知、认知和行为习惯。无论是更小的格式，还是更高的音质，如果不能给原先的使用体验带来难以抗拒的改善，那么人们就更愿意延续旧习。另一方面，也不得不让我们反思，今天，人们究竟在什么样的条件下使用流媒体音频，换言之，“听”究竟以一种怎样的方式，被镶嵌在大众日常生活中？