AliRTC 开启视频互动 “零计算” 时代
?简介:在 2021 云栖大会《产业视频化创新与最佳实践》视频云主题论坛中,阿里云智能高级技术专家在《AliRTC 开启视频互动 "零处理" 时代》的主题演讲中,发布了阿里云视频云下一代实时交互解决方案 —RTC “零处理”,同时分享了阿里云视频云在 RTC 产品的探索和实践,以下为演讲内容整理。
一、交互演进与挑战
在过去几年,视频交互产品发生了什么变化?
我们认为 RTC 产品对行业产生了两次非常重要的变革。
2014 年,互联网创业者与 RTC 产品供应商一起探索视频互动的商业化, 教育、娱乐成为主要的突破方向, 基于全球范围内的互动授课、秀场视频连麦、多人交友互动,也大多在这时间点完成了商业与技术的成功结合。
2017 年是一个标志性的时间点,RTC 产品已经帮助头部互联网客户实现了颠覆性发展,标志着互动视频技术与在线互动商业模式的成熟。
接下来几年更多的是不同体量、不同场景的规模复制,所以我们能看到,在 2018 年以及后续的几年,市场上并没有新场景、新互动的创新,而是基于不同内容、不同客群的业务复制, 视频互动从头部走向更多的细分市场。
第二个重要变革发生在 2020 年,受疫情影响,让云视频会议全面渗透,让这个时间提前了至少 5 年。
这次市场的变化,我们不能称之为一次技术革命,实际上对 RTC 产品并没有新的诉求,也没有产生新的互动场景和技术,但这次大规模的渗透,重新定义了供应商的市场格局,第一次让云厂商成为了市场极其重要的一部分,让市场从单一的会议厂商,分裂为云平台 + 会议终端供应商,让我们的客户有了更多的选择。
从 2018 年到现在我们没有场景上的根本突破,是不是因为我们的技术上遇到了瓶颈?
带着这样的问题,阿里云对 RTC 场景技术进行了深入的技术评测,我们试图发现整个行业大家的技术水位是什么样的,不同于单项的视频技术,RTC 的评测要更为复杂。
例如,对视频编码,我们可以通过 PSNR,SSIM,VMAF 等来分析,对于视频分类等视觉算法,我们可以通过 ROC 曲线来分析,但对视频 RTC 来说,涉及的主观感受非常多,是一件比较复杂的事情,目前业界也没有统一的评测标准。
我们从这些影响用户感受的指标里面抽出六个维度表征 RTC 的表现质量。
对评测感兴趣的话可以关注我们的「视频云技术」公众号,里面详细介绍了我们怎么进行自动化评测的,评测过程中我们会创造不同的网络环境,检测 RTC 在各方面的表现。
第一,RTC 有明显的技术门槛,比如说绿色的框代表一类典型的 RTC 能力,由规模较小的团队自研,投入较小,会有明显的差距。
第二个是几个比较大的供应商,包括在阿里云在内,外面这一圈,红色的线、蓝色的线,以及黄色的线,他们都处于相对比较一致的水平,但是没有一家有特别优秀的地方,所以技术同质化特别严重,大家基本上处于同样的水平。
这时候我们会思考一个问题,我们的技术是不是已经发展到了瓶颈期,我们无法满足未来更广泛的需求,这后面的原因是什么?会不会是我们的技术发展到某个瓶颈了?因为技术通常是阶跃式的发展,不能突破就会陷入在一个层次上。
二、“零处理” 加速交互升级
我们希望分析一下,现在用户的体验到底怎么样?我们现在的技术存在什么问题?
通过比较各家 RTC 供应商,我们发现一个比较有意思的点,就是大家有千分之二的卡顿率是难以消除的。50%、60% 的丢包都可以做的很好,但是如果网络带宽受限,千分之二的卡顿就难以消除了。
最根本的原因是我们会发现端侧能力是有限制的,大家的手机各不相同,有可能有些人的手机特别好,可以做复杂算法,有些人手机差,无法进行复杂算法,同时,端的碎片化比较严重,要对所有端适配是比较困难的。
一个自然的想法是,我们是不是能突破当前的应用架构?
我们把一个完全依赖端能力的架构,逐步转变成依靠云和端一起配合进行视频传输处理的架构,基于这个想法我们提出了云处理 + 端渲染技术,目的是希望从云上提供强大的处理能力,端上负责渲染,只需要提供很少的处理能力就能完成比较好的处理效果,使大家在不同的手机上都能得到一样的体验。
但是天下没有免费的午餐,采用上面的架构,很容易发现几个问题。
第一,我们的云上是不是能承受这么大规模的处理。
第二,云上能不能承担这么大规模的成本。
第三,云上能不能持续提供这么多类型的处理服务。
我们自己的信心来自于几个方面。
第一,通过阿里多年的积累,我们积累了业界最大规模的云上视频处理集群,所以我们在技术上已经具备承担超大规模处理的能力。
下图是我们处理的一张业务图的示例图,横坐标是时间,纵坐标是资源使用量,黑色的线一种业务,红色线是另一种业务,可以看到,每种业务都存在大量的业务空闲期,业务空闲期可以让我们有大量资源供我们复用,当我们把多种业务混跑时,就能把资源利用起来,大幅度降低成本。
除了在时间上的混跑,我们也可以通过空间上的混跑和异构的混跑,将整体的成本降下来。
三、“零处理” 实践分享
接下来是阿里云视频云在零处理的实践。
通常情况下,我们做 RTC 直播时,观众看到的直播画面是通过 RTMP 协议来完成的,这种情况下由于延迟的原因观众是无法参与到直播互动的。要增强观众的互动性,需要大家都加入 RTC 网络,每个端订阅多个流对端的算力和网络流量都是非常大的负担。
我们通过云端的 MCU 把流合并,重新进入到 RTC 会议里,这样观众可以通过 RTC 方式看到直播流,非常方便进行互动,同时也无需消耗过多的端上资源。这种模式我们称为互动低延时模式,已经是我们一个成熟的产品能力。
这是一个我们打通阿里内部服务能力的例子,我们通过和阿里集团安全部的合作,将 RTC 的流通过内网和安全部的产品打通,减少了中间环节,实现低成本、低延迟的内容审核。
相信这个场景大家已经看过,利用云端的处理,我们实现了虚拟会议室,通过云端的 MCU 将所有人进行抠图 + 贴图,来提升视频会议时的参会体验,这是阿里内部开会时已经可以运用到、并看到的技术。
“零处理“作为下一代实时交互解决方案,在云厂商中率先推出,解决了新交互时代因端侧算力受限而无法实现的虚拟交互场景难题,充分利用云端一体的超精细算力,以云特效构建实时虚拟场景,是全面打开沉浸交互新世界的一项重要演进。
原文链接
本文为阿里云原创内容,未经允许不得转载。
?