音频制作师Dennis Baxter浅析增强化音频制作

2018-10-31 10:50

　　谈论下一代音响系统的开发时，音频技术往往成为众多创意和想法的焦点。目前，娱乐行业的技术创新层出不穷，而电影行业也依靠沉浸式声音一马当先，毫无疑问，3D音频/沉浸声已成为虚拟现实技术获得真实体验的关键因素。过去几年来，广播和宽带行业在沉浸式和交互式声音方面取得了快速地发展，并在新推出的MPEG-H标准的助力下，进一步采用Ambisonics作为制作平台和制作工具实现声音体验方面的创新。

　　Ambisonics技术

　　事实上，多声道、多格式音频制作方式的发展不会就此停滞不前，音频制作者和声音从业者将采用各类工具并进行多种尝试从而为最终消费者提供高品质的音频产品。这些音频制作者和声音从业者已经开始意识到采用Ambisonics技术所具备的诸多优势——它能够以独特的方式来拾取、处理并再现声场。

　　概念

　　Ambisonics技术的概念很简单—— 通过拾取整个声场接着进行编解码，并尽可能准确地再现这一声场。Ambisonic音频制作技术最初于20世纪70年代早期推出，但是那时业界并没有发现其潜力，直到声音从业者和科学家开展从一阶Ambisonics到高阶Ambisonics（简称为HOA）的研究时，这一项技术才真正被大众所了解。简单来讲，Ambisonics的阶数越高，音频的解析度就越高，对于再现声场的可操作性和灵活性也就越好。

　　优点

　　Ambisonics技术的迷人之处在于你无需完整地拾取声场信息，而是将经过优化且相互独立的话筒拾取的信号进行编码转换为Ambisonics声场。一旦你拾取到了HOA编码的基础信息，它便能够为你提供理想的、预期的结果，从而在此基础上为你准确地再现指定声场。

　　既然Ambisonics技术能够基于所有空间维度的声场进行编码，因而这种音频空间编码方式拥有一个特别明显的优点——能够创造多维度的声音混音，并将空间距离信息、横向和纵向定位信息及高度信息传递给听音者。

　　同时，Ambisonics技术的优点还包括方便拾取及创建HOA编码。Ambisonics基于一种采样的原则，能够对整个声场进行还原。直观地说，随着Ambisonics阶数的增加，在拾取或重放声场时，将会获得更出色的空间解析度和更多的细节信息。

　　考虑这样一个理念，所有音频元素保留在音频流中，无论是立体声还是沉浸式声音格式，用户都能够将全部声音以理想的方式进行重放。这一完全不同的制作方式采用的是拾取整个声压场，将其转换为Ambisonics编码，并将Ambisonics信号传输至重放设备，之后在听音者处得到完美的还原。在音频通过重放设备进行播放时，解码设备根据音箱的数量和位置来匹配Ambisonics声场，通过这种方式重放的声场能够在最大程度上接近原始的声压场。

　　重要的是，采用Ambisonics技术这种基于场景的音频重放方式，通过将Ambisonics信号进行解码重放能够有效解决同时制作多种不同声道格式混音的问题。Ambisonics编码和解码方式操作简单，能够确保重放声场在几乎所有音箱配置下的一致性和准确性。

　　如果要在消费设备上完成解码工作，本质上意味着需要为设备提供更高的通道/数据处理能力。然而，当前的数据压缩技术已经得到了较大的发展，同原来的编解码方式相比，现在在同样的比特流中能够传输两倍的音频数据量。

　　当然，任何事情的实现都伴随着相应的代价。更出色的解析度需要更大量的声音方位点，从而更加准确且详细的记录现实声场信息。我们通过一些简单的数学计算来说明：四阶Ambisonics需要25个声音方位点，五阶Ambisonics需要36个声音方位点，六阶Ambisonics需要49个声音方位点，以此类推。诚然，使用更高阶的Ambisonics编码具有很多优点，但是这意味着编码过程将要处理大量的通道和数据量。

　　制作方案

　　技术巨头Qualcomm公司通过对HOA编码优点的研究，开发出了一种“夹层式编码”，能够将高达29阶HOA编码（900 路通道）的通道数量减少至6个通道加上控制轨。尽管我怀疑这种编码会出现边际效益递减问题，但毫无疑问它为声音设计师提供了一套理想的制作方案：通过采用HOA编码，立体声、5.1声道、7.1声道、7.1+4声道、10.2声道、11.1声道一直到22.2声道及更高数量的声道格式仅需在数据流中使用7个通道。

　　这一制作方案似乎能够兼容众多的重放格式，无需下混音或上混音便能够得到从立体声到22.2声道及其他多声道格式的效果，因此对于那些需要同时制作立体声和环绕声混音的音响工程师来说是解决问题的一个重要手段。

　　VR音频制作

　　基于大量的制作实践，以及下一代音频技术的发展，我们得出了一套优化的方案，那便是采用Ambisonics技术来进行音频制作，因为该技术不仅兼容广播和宽带公司进行沉浸式声音制作，同时也支持VR音频制作。

　　此外，Ambisonics音频制作方案特别适合制作双耳音频，这对于制作VR（虚拟现实）音频来说至关重要。

　　音频行业当前正在热议VR音频技术，因为它为声音从业者和工作室带来了众多崭新的机遇，但是我仍在斟酌在例如体育等节目制作中采用VR音频这项技术是否合适。因为该技术是完全依赖头部追踪定位的，由于屏幕有着明显的边界，我对于将声音进行旋转后的效果存有疑虑。

　　无可争议的是，VR音频对于从事创意行业的音响设计师来说提供了大量的机遇，正如导演或制片人使用视觉画面来讲述故事一样，3D世界里的声音也可以将观众或用户的关注点吸引至音频制作者希望重点突出的元素上来。使用Ambisonics技术为音响设计师带来的一大优势是基于VR和扬声器的沉浸式声音重放可以获得相似的效果，这将有助于录音棚和现场同期录音的音频从业者获得更广阔的事业发展空间。

　　然而，我相信采用现实增强这样的技术能够为体育和综艺节目的制作提供巨大的发展前景。与紧紧包住头部的VR体验不同，现实增强技术可以简单理解为向现实体验中增加一些元素。我的建议是将VR眼镜摘下，单纯享受这种“增强化音频”的体验。

　　增强化音频

　　尽管很多相关的增强现实技术都需要戴着眼镜来体验，但我认为，“ 增强化音频”也可以为现场或屏幕观赏体验提供有力的补充，从而使用户获得真实地娱乐感官体验。它就像是娱乐体验中的扩展屏幕和现场延伸一样，将成为声音从业者、音频制作者和声音产品销售者的最佳方案。增强化音频技术只需要耳机和智能手机即可实现，而且由于这种手持便携性，该技术能够应用于娱乐行业的各个领域。增强现实音频的优势在于采用了Ambisonics编码，并得益于它的头部跟踪和高品质的双耳音频解码技术。

　　广播电视综艺节目长期受限于低质量的声音重放，特别是环绕声重放，因此许多制作者由此得出结论称无法进行高品质音频制作，我想家用沉浸式声音重放系统出现后这种推断肯定会再次出现。家庭扬声器和声学环境质量永远称不上完美，但是通过耳机接收器来实现音频增强便可以解决很多问题——包括提升语言的清晰度。

　　增强现实音频技术不仅能够为现场声音体验带来出色的清晰度和细节表现，同时也能提供增强的评论音轨、翻译音轨，以及来自运动员和教练的独立音轨。增强现实音频可以为任何现场活动提供听感上的有力补充。

　　增强化音频能够创造性地应用于诸多的场合，包括现场音乐演出、戏剧等等。它不仅仅能够为主扩声提供补充，还可以提供定制化的混音。观看演出的观众只需要配置一套支持Wi-Fi的流媒体设备和一副耳机即可。

　　增强化音频流可以是交互式的，允许听众在体育场或球场内选择想听的评论员、教练或运动员的音轨，并将相应音频传送给他们的手持设备。在现实世界中，增强化音频可以提供超近距离的声音听觉体验。

　　虚拟现实技术是基于耳机的，现实增强技术则倾向于使用一些入耳耳塞或耳机——不过，这两种方法均不会受到房间声学环境的影响。音频制作者所面临的挑战一直是扬声器重放品质和高阶Ambisonics编码数据量的限制，然而通过采用HOA编码更有利于在所有扬声器配置上实现最贴近真实的高品质声音还原。

　　总结

　　Ambisonic并不是什么新技术，但显然在未来声音产品的创新和制作方面提供了一套新思路。Ambisonic技术至今才被业界所广泛接受，其中一个重要的原因在于Ambisonic的真正优点一直没有被意识到，直到最初的一阶构想扩展至更高阶的编码方式，再加上更有效率的制作工具的推出，才得到了足够的关注。常规声音制作的典型工具包括压缩器、动态控制器和均衡器，然而像Ambisonic这样的空间音频技术还在围绕混响器和房间模拟工具进行研发。

　　Ambisonic音频制作技术对于创建和再现多维度声场有着强大和独特的效用。

　　Ambisonic音频不仅提供了无限的重放可能性，同时它也为听音者提供了周围及上方空间的完整且独特的空间特征。

　　在制作3D音频、设计针对VR/AR耳机重放的沉浸式声音，以及通过Ambisonic制作方式进行扬声器还音方面拥有相似的共同点，它们均是通过对声音元素自然地拾取、处理及混音，最终创造出一个Ambisonic声场。

　　举例来说，为了拾取一场活动或演出身临其境的感受，通过合理的摆放高密度阵列话筒，能够为我们创造一个稳定的沉浸式声音声场进行后续处理。但是Ambisonic技术功能非常强大，它可以仅通过在声场中的多只话筒生成一个Ambisonic声场。

　　让我惊奇的是，你可以使用分开放置在任意地点的独立话筒进行拾音，并使用这些话筒拾取的全部信号来获得HOA编码的各个声音方位点信息。此外，那些没有采用HOA方式创建的单声道和立体声音频也能够通过一台HOA编码器进行处理生成3D声音方位点信息，最终在用音箱进行重放时，能够制作出多维的声音场景。

　　单声道、立体声和阵列话筒混音拥有相似的制作流程，这种类似的工作流程也将用于沉浸式声音的制作，因此能够便于混音师和音频制作人员真正实现沉浸声和HOA制作过程的无缝衔接。

　　沉浸式声音是下一代音频制作技术的一个有趣的亮点，但是用户需要面向消费领域的解决方案，因此挑战则在于如何尽可能经济且快速地制作和管理类型广泛的多声道音频格式。经济和廉价意味着在最大程度上减少数据的传输量。

　　Ambisonic音频制作技术加上MPEG-H音频编码对于重放所有格式的沉浸式音频——无论是基于耳机的VR还是从2.0到9.1，一直到22.2的全部多声道格式均提供了出色的灵活性和强大的功能。

　　MPEG-H编码能够传输16通道音频信号，再加上Qualcomm公司的“ 夹层式编码”能够将Ambisonic通道数量减少至6个通道及一个控制轨，从而能够为音频制作者留出9路额外通道以传输其他的音频内容。

　　在当前的多声道音频工作流程和实践中，采用Ambisonic编码和基于场景的制作具有非常显著的优势。这一技术能够满足沉浸式声音内容制作的需求，通过将其高效地分配到一个比特流中，从而可在各种各样的音箱配置和声道格式下进行重放——因此更具创造力和效率，同时便于消费者使用。

上一篇：苑学成谈世界杯转播音频制技术心得作

下一篇：从文字到声音：制作音频新闻的三个技巧

配音教程

音频制作师Dennis Baxter浅析增强化音频制作

在线客服

微信扫一扫