腾讯多媒体实验室的完整音视频技术栈

栏目:远程教育  时间:2020-01-20
手机版

在音视频圈子里,最近热门话题不少,譬如视频体验联盟的四届一次全会,譬如拉斯维加斯的2020 CES展,再譬如腾讯云最新发布的一款云视频会议产品。

如果说视频体验联盟四届一次全会,主要是对2020年音视频技术研发方向的定调,那2020 CES展就是音视频新技术的集中展示,而腾讯的云视频会议产品,则是新技术的切实落地。不再只停留在概念阶段,而是从实验室走出来,落地到“提升企业运转效率、驱动行业发展”这件事情上来。

事实上,在音视频技术的落地上,腾讯做了很多,云视频会议产品只是其中之一。而背后依傍的,就是腾讯多媒体实验室,其专注于多媒体技术领域的前沿技术探索、研发、应用和落地,包含实时音视频、编解码和网络传输,基于信号处理和深度学习的多媒体内容处理、分析、理解和质量评估,沉浸式媒体(VR、AR、点云等)系统设计和端到端解决方案。同时负责国际国内行业标准制定,包含多媒体数据压缩,网络传输协议,多媒体系统和开源平台等。

腾讯多媒体实验室研发方向本质上都是解决音视频圈的B端客户需求,表面看起来这些似乎更倾向于“提供服务”,但其实也是在“解决问题”。

解决什么问题?

从听得清、看得清,到听得真、看得真,再到听得懂、看得懂。

//从服务内部,到开放能力//

作为科技赋能产业的前沿阵地,视听行业是一个特别的存在。技术延展从早期专注于硬件性能的优化,到后来追求用户体验的提升,再到当前开始研发新的功能和场景,期间孕育了一批批站在改革浪潮前端的企业,腾讯多媒体实验室就是其中之一。它虽不参与硬件市场的迭代,但在软件革新上也几经变革。

最开始,在腾讯多媒体实验室正式成立之前,其前身是QQ于2011年成立的音视频中心,专注于提供高品质的实时音视频能力。这期间主要服务于QQ,和QQ耦合很深。

到2016年,腾讯多媒体实验室成立,当时叫腾讯音视频实验室,是SNG的一个独立部门。之所以独立,在于4G发展,直播行业浪潮兴起,而音视频是一个链路非常长的技术,想要有好的体验,意味着每个环节都不能出问题,需要独立的技术团队,为云上的音视频技术提供专业的技术支持。这期间腾讯音视频实验室除了继续服务于QQ之外,也开始试图把能力封装,提供给外部使用。

2017年,时任增值产品部助理总经理的吴祖榕轮岗到音视频实验室,他发现过去实验室主要是为QQ场景服务,但伴随着产业互联网的转型,腾讯需要更完整的音视频技术栈,不断完善在实时音视频通信、网络等方面的能力。

2017年,腾讯多媒体实验室正式组建了国际标准团队。同年11月,曾任职多家全球500强和国际知名企业并担任高级技术和管理职务的刘杉博士正式加入音视频实验室,担任实验室联合负责人,带领团队加强音视频技术壁垒并进一步在泛媒体、富媒体、融合媒体等领域进行技术拓展和产品研发。

图:刘杉博士做音视频编解码技术介绍

2019年,腾讯音视频实验室正式更名为腾讯多媒体实验室,以更准确地表达实验室涵盖的技术和业务范畴。

目前,腾讯多媒体实验室已经搭建起了相对完善的组织构架,主要包括标准制定、核心能力建设和产品落地三大板块。

在标准制定方面,腾讯多媒体实验室专注于多媒体领域的标准研究和制定,研究领域包括媒体压缩类、系统与传输类,同时积极参与相关的工业论坛,以技术推动产业的发展。据悉,目前腾讯多媒体实验室不仅在视频编解码标准保持国际领先位置,同时在虚拟现实(VR)、点云(PCC)、网络传输协议(DASH)、多媒体系统(OMAF、CMAF、NBMP)等相关多媒体标准中也取得了突破性进展,为中国企业在国际标准制定领域赢得声誉。

而在核心能力建设方面,主要包括:包含实时音视频在内的多媒体压缩、处理和传输通信,音视频质量评估,互动沉浸式媒体和智慧媒体五大领域。而这五大领域可以说是后用户红利时代,视听产业价值挖掘的根基。

//提供技术,构建场景//

当前音视频能力的构建已是互联网大小巨头的标配,尤其近两年来,整个互联网流量以平均每年26%的速度增长。以2019年为例,每月约200ExaBytes的互联网流量里80%来自于视频。到了2022年,这个数字将会翻倍,这其中巨大的商业价值不言而喻。

而腾讯多媒体实验室目前核心构建包括实时音视频在内的多媒体压缩、处理和传输通信、音视频质量评估、互动沉浸式媒体和智慧媒体这五大领域尤其值得一提。

超高清音视频的传输需要稳定的网络和充足的带宽,任何的网络波动都会对音视频质量造成影响。在实时通讯的场景下,如何高速地检测网络状态并根据网络状态制定合适的抗性和传输策略,一直是学术界和业界的难题。结合腾讯丰富的网络状态数据库,腾讯多媒体实验室提出新的实时拥塞控制算法,在不同网络场景下都能迅速给出可靠的带宽预测。

再看音视频质量评估。体验的提升一直是视听行业亘古不变的演进方向,这在视觉上,是从标清到高清再到4K、8K的过程;而在听觉上,则是降噪、无杂音的演进。腾讯在这方面下了很大的功夫,搭建了音视频质量评测平台。一方面开发适用于实时音视频通话的音频质量评估算法,评估降噪、回声抑制、增益控制等语音增强技术的效果;另一方面针对视频高清源可用场景,使用深度学习技术来精确衡量视频质量,进而更好的平衡视频码流大小与视频观看体验。听起来似乎有些生涩难懂,腾讯多媒体实验室给出了一个通俗的解释:利用一套算法,让机器自动给音频、视频打分,其打分结果接近人的真实体验,从而基于此对音视频质量进行迭代升级。

移动互联网时代,娱乐、教育、即时通信等不断细分的垂直领域带来了多元化的音视频场景,用户所使用的软硬件环境愈发复杂,催生了更多个性化的用户诉求。腾讯多媒体实验室针对多人、多场景实时通信系统中的3A问题(降噪、回声抑制、增益控制),提供了低复杂度、高鲁棒性的解决方案。为了提供安静的远程沟通环境,腾讯多媒体实验室就对开会过程中可能碰到的多种嘈杂声音进行智能降噪,并针对性的对键盘声、咳嗽声、放水杯等常见会议噪声进行定点降噪,营造更加专注的会议环境。

最后再看互动沉浸式媒体,随着5G、AI、IoT、超高清等新技术的加速融合,移动化、场景化、沉浸式在视听体验中将更加普遍。从产品到产业,从场景到服务,从理念到模式,都实现了更宽泛的延伸。而腾讯多媒体实验室着眼于前沿多媒体信息技术的发展,探索未来信息传递的多种可能性,研究采集、压缩、传输、播放等端到端完整技术链;深入理论而落地产业,将OMAF、DASH等标准研究成果融入产品,延展人类获取信息的方式和维度,从而带给人们沉浸式感官体验与全球认知世界的方式。目前在VR导览,即智慧文旅;VR教育,即通过VR展现方式,拓展学习场景,增强用户学习兴趣等方面在逐步探索。典型案例是腾讯此前推出的裸眼VR产品“一部手机游云南”,它让游客可跨越时空限制,用一部手机即可身临其境感受当地文化魅力。

//业务匹配,注重落地//

当然,技术是需要持续不断迭代的,尤其在5G时代。5G使媒体内容的生产、获取和传播方式发生改变。无论是4K/8K,还是VR/AR/点云,这些在过去因为受限于网络带宽而无法真正落地的应用,在5G的推动下都将迎来突破。

围绕5G,腾讯多媒体实验室也有相应布局。一是5G+8K,5G网络和视频编解码技术是相辅相成的,通过视频编解码技术,可以更好、更真地保持数据原本的完整性,可以让用户观看到更高质量的视频内容;二是5G+沉浸式,用户观看体验的提升是无止尽的,5G让二维视觉体验有了向沉浸式进阶的可能;三是5G+AI,包括视频的智能理解、智能处理等,例如通过5G实现云剪辑,用户在异地拍摄的视频,上传到云端,通过云剪辑软件可以实现实时发布。

在梳理腾讯多媒体实验室的发展脉络中不难看出两点,一方面是腾讯多媒体实验室的技术研发非常贴近业务,注重产品落地;另一方面则是,腾讯多媒体实验室一直在与全球音视频行业共同发展,不管是技术延展还是场景服务,可以说都在大踏步向前走。

和产业链中的各技术型友商相比,腾讯多媒体实验室的优势很突出。其一,基于腾讯云深厚的IaaS和PaaS能力,他们对基础设施的理解深;其二,背靠腾讯丰富的基础能力研究,包括优图、AI Lab、安全等实验室,可以提供非常强的AI算法能力支撑;其三,应用场景丰富,同时灰度测试广泛应用于腾讯内部,避免了将试错成本转嫁给客户。

随着互联网朝着移动化、社交化、视频化方向进一步演进,多技术、跨领域的结合将会大大拓宽使用场景,在诸如远程教育、远程医疗等需要根植于音视频技术之上的智能应用中,腾讯多媒体实验室始终在前行的路上。

上一篇:为什么远程教育越来越受欢迎?
下一篇:小米雷军的首颗5G卫星发射成功, 拉开了中国商用航天新时代的帷幕

最近更新远程教育