虚谷未来CEO 唐佳娴:让虚拟人“灵” 动起来


图:2022 阿里云视觉计算私享会现场

5 月 11 日,在 “2022 阿里云视觉计算私享会” 上,数字王国集团虚谷未来科技 CEO 唐佳娴为大家带来了题为《让虚拟人 “灵” 动起来》的主题分享。以下内容根据她的演讲整理而成。

2008 年 ,数字王国首次创新 “虚拟人” 技术并运用于电影《返老还童》。2012 年,我们首次将虚拟人搬上舞台,在科契拉音乐节 “复活” 已故美国饶舌歌手 Tupac,轰动全美。此后,2014 年,我们在亚洲市场 “复活” 了邓丽君。2018 年,我们展现了具备业内领先优势的高拟真虚拟人 DigiDoug。

在虚拟人发展的早期,一般需要借助虚拟人的模型,加上后期特效来完成整个虚拟人的呈现。到了 2019 年,我们实现了所见即所得、实时渲染的高画质虚拟人

基于这个转折点,我们更多地将此技术落地于商业应用,有与芝加哥博物馆合作的复活马丁路德金,也有国内市场的班长小艾等一系列角色。

虚谷未来是数字王国做虚拟人商业化的专业公司。在近两三年的实际探索中,我们发现,除了高品质虚拟人的制作需要丰富的技术经验,在虚拟人市场应用技术也非常有必要匹配相应的解决方案,从而实现虚拟人 “高品质、轻应用、低成本” 的商业落地。我们专注将虚拟人的制作、应用、运营全栈一体化发展,实现虚拟人日常高频次、量化产出内容,提供为各品牌、机构的高性价比服务。

上图是虚拟人静态模型,包括卡通、2 次元、 2.5 次元及风格化、游戏级、拟真人、写实级、电影级 7-8 档。

动态模式主要有以下三类:

  • 动画:依靠传统特效,包括全 3D 以及真人实拍加部分 3D,这是传统特效的应用方式。

  • 人力动捕:由真人穿戴专业动捕设备,通过光学捕捉和惯性捕捉来驱动模型。主要考验 3D 模型资产的绑定以及驱动的算法能力及经验;另外,还有通过视频相机捕捉真人表情、动态的方式,做模型的驱动,比较便捷,便可驱动的模型精细级别有限。

  • 算力动态:不需要真人动捕操作,虚拟人的面部和身体动态、语言表达全都通过 3D 数字化操作。例如,我们与跟阿里达摩院合作的虚拟主播完全应用数字化驱动;除此之外,还有用 2D 真人照片、视频的形式,主要解决口型和相对固定部分身体动作的动态呈现。

上图展示了真人拍摄 + 换头特效的方式。在日常运营中,虚拟人与复杂空间、人物同框交集的视频需要,以及平面物料变化丰富的服装,大多采取此种方式实现。

上图左侧展示了人穿着专业动捕服来做数字人的驱动。右侧为通过相机、电脑摄像头捕捉真人表情及动作,从而操控虚拟人,多应用于虚拟角游戏级别以下的虚拟人。

上图为算力驱动,也是数字王国虚谷未来与阿里达摩院合作的项目。上图中主播的身体、表情和语言全部通过数字驱动呈现,它还接入了淘宝客服系统,能够自动发放优惠券、回答观众提问。因此,虚拟主播与真人主播是非常好的搭档。白天真人主播上线,24 点后虚拟人主播可设置自动上线直播,大大降低了人力成本,提高品效;对直播间的权重以及产出来说,是非常优秀的组合。

算力动态的 2D 建模,使用真人照片的面部合成为新的虚拟脸型及身体形象,主要集中在口唇部的动态及简单身体动态的配合,应用成本相对低,但虚拟感会相对弱。

AI 智能化包括 2D 真人照片、各类级别的 2D/3D 虚拟人,可以分为两类:

  • 第一类:固定的知识图谱加上固定的声音、表情、动作组合。知识图谱是系统设置好的声音、表情、动作,由虚拟人去执行设定好的内容,实现去人化 AI 动态。

  • 第二类:更高级别的知识图谱,虚拟人可以通过算法进行学习,包括表情、动作的动态和语言内容,最终实现的效果是虚拟人所有的表现和思考、表达都通过虚拟人自我学习达成,是一个真正的 AI 智慧人。

上图为数字王国超写实虚拟人 Digi Doug 与真实人类进行互动,他的声音、表情动作、表达都是通过自己学习而成。

数字王国虚谷未来一直以来,专注于高品质虚拟人的制作和运营,而业内的其他伙伴也都在各自的细分领域里精耕细作。根据不同的应用场景,运用不同的虚拟人制作和应用模式才是最佳组合。希望业内的伙伴们一起联合共创以及协作。

比如市场物料的平面和视频,可以通过动画特效与实景或全虚拟景结合,能呈现出更精质的大片效果;虚拟人直播可以通过优质的虚拟人实时驱动技术 + 中之人的表现,使虚拟人更具人性化和亲和力;在自媒体运营、短视频的场景应用,需要便利、低成本、高频次地输出内容,更多也是应用这种模式。而虚拟客服可以运用全 AI 的模式为客户提供最低成本的 24 小时实时服务。

未来,虚拟人的两个发展趋势一定是高品质的表现力以及智能化应用。

而高品质的标准有三:

  • 第一,精细、超写实的画质。

  • 第二,能够高灵活度地操控表情、动作、材质等。

  • 第三,实时渲染,即,实时实现前两项高品质、高灵活度的实时驱动。这是比较大的挑战。

数字王国虚谷未来的虚拟人,已实现了电影级虚拟人面部表情的实时灵动,包括眼球级的实时灵活追踪。

上图,虚拟人艾博爷爷脸上的皱纹细节、眼睫毛细致逼真,具有超写实质感,呈现了电影级的写实程度,且实现了实时渲染。这些优秀的表现都源自于数字王国数字王国独特的虚拟人实时式驱动系统。

除了表情和动作,服装的动态算法也至关重要。比如班长小艾的双层纱裙,动态下能呈现非常灵动飘逸的质感,非常考验材质的算法。

我们于 2019 年在温哥华 TEDTalk 首次实现了虚拟人形式演讲,全程由本人实时操控虚拟人完成。

因此,数字王国的核心技术就是实时动捕驱动虚拟系统

以上为数字王国虚谷未来的虚拟人案例。

目前虚拟人在大文娱、快消、客服类和近期快速发展的数字 NFT 领域,尤其 NFT 后来居上,虚拟人已经成为所有品牌方应用的重要形式。

让一个虚拟人灵动起来,包括灵活的动作和灵魂,虚拟人的灵魂需要通过内容输出来表达。因此,便捷和量产非常关键。应用上来看,不管是直播、视频还是实时活动,高品质、轻量级以及低成本非常重要。如果需要花费很长时间和高制作成本才能输出一条视频,不利于虚拟 IP 的打造,不能满足日常化应用的实际需求。

目前我们的系统已经能够实现一台专业电脑,加一个技术人员和一个中之人,即可完成整场直播的表现输出,完美解决自媒体和品牌方的需求。

虚拟人还可以应用到产品包装、活动发布、演出等场景,通过 AR 技术实现互动、通过线下全息类装置实现虚拟人沉浸式展示和服务,通过 XR 的方式来呈现的线上 / 线下发布会、综艺表演也非常精彩。

当前我们正处于 web 3.0 的初始阶段,它更是一个品牌数字营销的升级关键期。因此,品牌拥有一个虚拟人或个人拥有一个数字分身是大势所趋,因为这是进入元宇宙、新数字化营销的基础。

希望在不久的将来,通过业内各伙伴的合作,每个品牌能够快速拥有专属的高品质品牌虚拟人,每个人都能拥有自己的个人数字分身

点击这里,查看本次视觉计算私享会的回放视频。