www.tl999333.com|腾龙账号注册

qq个性签名  qq伤感签名  qq情侣签名  qq搞笑签名  非主流签名 

您现在所的位置: 首页 - 个性网名 - qq女生网名 - 正文

专访腾讯多媒体实验室商世东:咬咬牙也要跟上新版本的发布正文

类别:qq女生网名 | 点击: | 日期:2020-12-06

专访腾讯多媒体实验室商世东:咬咬牙也要跟上新版本的发布

(Photo by Sergey)

  受疫情影响,远程协同办公软件市场爆发,腾讯会议上线两个月内日活超千万,在如此高并发流量冲击下,腾讯会议保持了清晰流畅的语音服务。近日,腾讯多媒体实验室高级总监商世东接受LiveVideoStack专访,围绕腾讯会议及其背后的故事进行了分享。

  以下为采访实录:

  1. 选择

  离开杜比从来都不是一个困难的决定

  刚刚毕业的时候,我在摩托罗拉做音频方面的工作,一做就是将近十年的时间。2010年,我去了杜比实验室,算起来是国内入职杜比研发团队的第二个员工。当时负责整个杜比中国的工程团队,差不多有五六十个人的规模。后来我又去了杜比澳大利亚,再后来,也就是2019年1月,我加入了腾讯多媒体实验室,在音频技术中心负责整个音频团队的建设、产品的技术路线规划、技术的交互以及负责对多个产品,包括腾讯会议在内的端到端的音频体验,现在团队(音频)大概有20个人。

  对我来说,首先,在杜比这样的业界领先公司工作,我学习到了很多,国际化的视野、前瞻性的技术布局、完整的思维体系、团队建设等等,这些都是让我终身获益的东西。

  但离开杜比并不是一个非常困难的决定,这其中大环境、小环境的原因都有一些。我后来回顾了一下,最重要的原因还是在于杜比的主要业务是在传统领域,成长速度不尽人意。作为一家主要做技术授权业务的公司,它没有最终面对消费者的产品,相对而言公司规模也比较小,对整个生态的影响有限,很难有一个全面的把握。

  换一种说法,这其中有很多的东西是个人想要但是平台无法给与的,个人成长容易碰到天花板,想要向上突破的时候,公司已经不能给自己提供这样的平台了。就这方面而言的话,在腾讯,天花板几乎不存在,在这里,只要有能力、有潜力、有愿望,个人拥有持续不断的提升空间,并且可以在这个无限上升的空间里做到最好,这对我来说是非常重要的一点。

  在腾讯面临的用户数量,以前在杜比的时候是想都不敢想的。现在一天会有千万级DAU的产品,可以看到自己开发的产品在整个市场上遇到各种意想不到的困难、挑战、问题以及机会。

  现在我们很大一部分的精力放在腾讯会议上,通过种种技术对用户使用场景进行分析并通过统计数据的上报、分析,了解用户可能遇到的问题并快速加以解决。

  2. 改变

  需要更多的思考与更确定的答案

专访腾讯多媒体实验室商世东:咬咬牙也要跟上新版本的发布

(Photo by Sergey)

  以前我们做视频会议,考虑会议中的语音质量提升和评估的出发点都是要求对标或者超越电话(典型的比如电话话筒终端),这个是典型的双人通话场景,但是现在我们也发现视频会议大量的场景都是围绕多人的、多地的联合办公场景。以前基于电信行业终端(电话话筒为主要语音设备)定义的完整的语音质量体系需要重新审视和演进来满足现在用户的需求。简单地说,会议软件是从模仿打电话的体验开始的,虽然从使用方式、使用场景、使用时间等等角度来看,多样性已经远远超过了电话。而且,仅仅俩人打电话是不够的,我们要一个小组打电话,光打电话还不够,还要分享视频、分享屏幕、图片和文档。从国际标准,比如ITU-T的演进路线图来看,制订的通话标准,也不断的从双人通话向多人、跨地区的实时、强交互场景演进。

  会议当中关键的语音体验简单的来说,可以从三个维度来衡量,语音通信的可懂度,语音自然度/保真度和语音舒适度。从这三方面来说,在多人会议中面临的挑战明显要多于双人。

  比如多人通话采集设备的多样性。两个人的时候当然很好协调,人多了以后采集设备如何配置,以及采集的音质、采样率、比特率;在多人场景里面音频编解码的接入配置,到底是宽带还是超宽带,最简单的办法就是所有的配置都按照最好的来,但是这样对系统资源的占用是最高的。同时因为对系统资源的占用最高,会带来总体体验的下降。

  那么如何动态来在多种因素中平衡,保证多人语音通信的综合体验在三个维度上有最优的均衡,就变成一个很有挑战性的课题。

  同时,不同场景的网络环境也不一样。你的网络、我的网络,可能还有第三个、第四个人的网络,有的人使用有线网络、有的则是WiFi,有的是4G,带宽差异巨大,网络QoS也参差不齐,这时候如何有效的探测网络实际带宽,进而高效的进行流控管理,在多人场景下的复杂度远远高于双人。

  所以,综上所述,一旦开始考虑多人参会的因素,你会发现,在两人通话的情形下讨论的音质体验、QoS、QoE等等问题,现在要重新思考答案。这在国际上当前也是很热的领域,大家也都在探索答案。

  对于整个视频会议体验来说,或者对于用户体验来说,这不是一个单一的因素或者指标就可以决定的。之前我们有针对网络规划的常见QoS三个指标,丢包,抖动和延迟,这些东西都是必要条件,但是不是充分条件。决定一个用户体验的是很多方面的因素,比如从音频角度来说,从我们做音频的角度来说,用的最多的就是上面说到的三个维度:语音可懂度、自然度、舒适度。

  首先是听得懂你说的话,这是可懂度。如果音量很低,卡顿很严重,或者回声,或者很嘈杂,或者啸叫发生,那我基本就无法听了,那视频会议通话中反应比较多的卡顿来说,我们通过深度学习技术来解决网络丢包的问题。

  IP网络上面传输的时候常常会发生丢包的现象,以前处理丢包的技术比较简单粗暴,比如直接拿后面一帧填补一下或者前一帧内容直接复制。但是现在我们通过机器学习的方法,可以很准确的预测丢掉的那个音节的部分内容,在用户体验上则并没有感知。

  但是光听得懂肯定不行,你肯定不可能只满足于听得懂。

  比如听机器人说话,那听得懂是没有问题的,但自然度方面就不会太好,这里面就涉及很多音质的东西,不仅是延迟、卡顿,抖动,这些是网络的指标。自然度对于用户来说更多是一个感知问题,我们用音色是否明亮、是否均衡、是否丰满,等等多项指标来衡量。当我们在语音处理中不可避免需要非线性处理的时候,我们就可以通过上述的指标来保证语音的感知自然度。

顶一下
(0)
0%
踩一下
(0)
0%
网友评论     无需注册 即可发布评论留言
主页小编 :如果你认为本站不错,请大家把(主页)告诉给你的朋友哦!
匿名评论
Copyright © 2013-2020 HHYYWZ.www.tl999333.com|腾龙账号注册 版权所有