Lyra——开启下一个十亿用户的语音通话
- 新闻资讯
过去的一年已经表明,在线交流对我们的生活至关重要。无论你身在何处、可用的网络条件如何,清楚地了解彼此之间的联系变得前所未有地重要。因此,我们在2月推出了Lyra:一种革命性的新型音频编解码器,它使用机器学习的优势来产生高质量的语音呼叫。
文 / Andrew Storus & Michael Chinen - Chrome
原文链接 / https://opensource.googleblog.com/2021/04/lyra-enabling-voice-calls-for-next-billion-users.html
译者 / 拍小编
前言

01
Lyra的体系结构
Lyra的体系结构分为编码器和解码器两部分。当有人在电话里讲话时,编码器会从他们的语音中捕获独特的属性。这些语音属性(也称为特征)以40ms的块提取,然后压缩并通过网络发送。解码器的工作是将功能转换回可以在听众的电话扬声器上播放的音频波形,通过生成模型将特征解码回波形。生成模型是一种特殊类型的机器学习模型,非常适合从有限的功能中重新创建完整的音频波形。Lyra架构与传统的音频编解码器非常相似,传统的音频编解码器已经成为互联网通信的骨干力量,已有数十年的历史了。这些传统的编解码器基于数字信号处理(DSP)技术,而Lyra的主要优势来自生成模型重建高质量语音信号的能力。

02
Lyra对未来音频的影响
在过去十年中,尽管移动网络持续稳步发展,但移动设备运算能力的爆炸性增长依然超过了可靠的高速无线基础架构的处理能力。对于存在这种反差的地区,尤其是发展中国家,下一个十亿互联网用户将上网,这种技术将使人们之间的联系更加紧密的希望仍然渺茫。即使在连接高度可靠的区域,异地工作和远程办公的出现也进一步限制了移动数据的限制。虽然Lyra可以将原始音频压缩到3kbps的质量,从而与其他编解码器(例如Opus)相比质量不错,但它的目标不是成为一个完整的替代方案,而是可以在这种情况下节省有意义的带宽。
03
Lyra的开源版本
Lyra代码使用C++编写,以实现速度,效率和互操作性,并使用带有Abseil的Bazel构建框架和用于全面单元测试的GoogleTest框架。核心API提供了用于在文件和数据包级别进行编码和解码的接口。还提供了完整的信号处理工具链,其中包括各种滤波器和变换。我们的示例应用程序与Android NDK集成在一起,以展示如何将本机Lyra代码集成到基于Java的android应用程序中。我们还提供了运行Lyra所需的权重和矢量量化器。
拍乐云一直关注RTC前沿技术的最新动向,致力于探索行业用户在实时互动场景中的痛点解决方案,为用户提供强互动、沉浸式的音视频体验。也欢迎更多对音视频技术感兴趣的朋友能与我们交流,共同敲开未来RTC之门。

