本文为论文精要,原文刊发于《广播与电视技术》2023年第6期。
本文作者:
臧可 北京电影学院
第一作者简介:
臧可(1985—),男,北京电影学院讲师,博士。主要从事音像技术方面的研究,曾参与过2022冬奥会开幕式等重大项目。
NO.0
引言
举世瞩目的北京2022年冬奥会和冬残奥会胜利落下帷幕,兼具诗意与浪漫、实现艺术与科技完美结合的开闭幕式,赢得了全世界高度赞誉。本届冬奥会的核心理念是绿色、简约、科技,不同于2008年夏季奥运会上国家硬实力的宣传,这次更加充满了民族自信,低调地通过科技手段“秀文化”。为充分展现科技冬奥的创新理念,立足多年的研究经验和成果,我们运用“计算机视觉”“人工神经网络”“实时图形渲染”“精准时钟同步”“HDR”等技术开发出一套面向大型演出的“人工智能实时特效系统”,为北京冬奥会开闭幕式工作部与导演团队提出的真实演员与虚拟影像实时互动创意提供了技术解决方案,实现了国家级演出活动中前所未有的大规模实时互动视觉特效。
在开幕式节目《雪花》中,如图1所示,500多名手持和平鸽道具的孩子在超过1万平米的LED屏幕上自由表演,每个人脚下都有闪亮的雪花特效时刻跟随,充分展现了孩子们的自由欢愉,而成为开幕式的亮点。这一基于“人工智能实时特效系统”实现的互动视觉效果是世界范围内首次采用AI算法在节目现场实现如此规模的实时定位、实时渲染。
图1 开幕式节目《雪花》演出现场
如图2所示,《致敬人民》是另一个采用“人工智能实时特效系统”的节目。由百万量级图形粒子实时形成的动态雪浪被24个轮滑演员实时“推开”,AI算法实时识别演员的动作与位置,让演员不再需要长时间的“精准排练”来实现艺术效果,充分展现了北京冬奥会开幕式“科技创新与艺术创意”相结合的理念。
图2 开幕式节目《致敬人民》现场
NO.1
技术
对比
图像识别技术目前已在众多领域得到广泛应用,如人脸识别、公安侦察、地质探测等领域。而将这种技术运用在大型演出中,本课题属于首次。其过程最难突破的是实施的困难和风险的挑战。
大型演出已有上百年历史,由传统舞台到现今以LED投放视频背景结合台上演员表演的呈现形式越来越普遍。在演员和视频背景的配合过程中,一般采用的是通过排练的准确性来解决和确保人和画面之间的自然和流畅。例如行进方阵随着画轴打开的节目,就要求演员必须严格按照画轴铺开的速度行走,并且通过反复的训练达到更好的准确性,而本课题提出的演员定位捕捉的技术方案很好地解决了这个难题。
1.1 具体的系统方案
“演员定位系统”是互动视效实现平台的设计重点,该系统又可进一步分为“图像采集系统”和“位置追踪与动作识别系统”。
结合调研数据对演出场地进行采集区域划分与摄像机布设位置选择。在场馆部署一套由多台高帧率、4K无压缩、光纤万兆输出的工业摄像机构建的摄像机阵列,对表演对象进行多角度拍摄。搭建服务器机房,部署一套高性能图像采集服务器。使用光纤构建的万兆以太网,结合 PTP 技术实现摄像机阵列的精准同步控制并将数据传输至采集服务器。服务器对数据进行整合处理并输出动作分析需要的数据格式。进而基于人工智能领域“卷积神经网络”算法的实时特效系统实现 1 万平米表演区域上 500 多个对象的识别与定位,定位误差在15cm以内。
分布在冬奥会开闭幕式主场馆“鸟巢”不同区域的相机系统、AI 运算服务器、实时渲染服务器等设备使用万兆光缆相互连接,配合高性能处理单元,实时特效系统的全链路处理延迟仅约 100ms。
1.2 位置追踪与动作识别系统的开发与搭建
部署一套高性能计算机视觉算法服务器以运行本项目开发的“超低延迟动作识别算法”,对获取自采集系统的图像数据进行逐帧识别,实现稳定的多对象精确定位与动作识别,生成“实时视效渲染系统”所需的效果驱动数据。
“目标定位程序”基于卷积神经网络中检测速度较高的YOLO算法进行“目标检测”。借助节目排练时采集的图片数据对神经网络进行训练后,图像中的演员会以边界框的形式被框选出来,将边界框底边的几何中心点作为演员站立位置的参考点,再结合预先输入程序的相机标定参数,即可得出演员在实际舞台平面的位置坐标。
YOLO实现快速检测的核心机制在于预先将输入的图像用二维网格划分成若干个格子,每个格子根据卷积网络提取的特征直接进行物体的类别与位置预测,一次性完成分类和检测任务。使用YOLO算法有以下参数可以根据被检测目标的特点进行调整:
1. YOLO的网格分辨率。YOLO算法会对图像进行网格划分,通过提高网格的分辨率,可以提升对较小目标的检测效果,但这种操作会增加运算耗能,影响检测速度。
2. 每个格子内负责进行位置预测的锚框(anchor box)数量以及大小。该参数可以根据训练时的数据集进行设定,从而使算法更好地适应特定的检测目标。
3. 检测阈值。通过降低阈值,可以令算法输出更多的预测框,在有大量对象需要检测时可以提升检测率,但也会增加误检的可能性。
NO.2
项目实施
本系统使用高性能工业摄像头对表演区域进行视频数据采集,借助实时追踪算法对视频数据进行“目标检测”分析,获得人物对象(演员)在视频画面中的位置,再基于(预先测定的)画面像素与真实物理空间的映射关系,得到人物对象在表演场地的物理位置。物理位置以坐标形式经以太网发送给实时图形渲染系统,作为图形效果的生成位置依据。图形渲染系统的输出信号通过地面铺设的LED进行显示。
2.1 系统方案
本系统涉及两个核心程序的开发,以及三个硬件子系统的设计与部署。两个核心程序为:多目标跟踪程序、互动视效程序;三个硬件子系统为:视频采集系统、跟踪运算服务器系统、图形渲染服务器系统。
为了保证可靠性,系统采用主备双系统独立并行运作机制,主、备系统之间可实时“热切换”,确保演出效果实时无缝切换。
2.2 多目标跟踪程序
多目标跟踪程序的功能是使用演出现场拍摄的视频数据得到画面中演员站立的物理位置,并以网络形式发送位置数据给后端系统。
本项目要求在大范围区域(超过1万平米)同时测定大量对象(500个以上演员)的表演位置,且测量频率不低于30次每秒。如图3所示,程序基于卷积神经网络中检测速度较高的YOLO算法快速识别出画面中的特定人物对象,再基于视频画面中像素与真实物理空间的映射关系得出人物对象在物理空间的坐标,并根据实际情况设计坐标处理算法,以实现多目标的持续追踪。
视频画面中像素与真实物理空间的映射关系通过在演出现场的表演区域(通过LED屏幕)显示标定用矩阵图形来得出。
图3 多目标跟踪程序
2.3 互动视效程序
互动视效程序是以实时图形渲染引擎为平台开发的特殊视效程序,如图4所示。根据节目视觉设计需求,本项目视效程序主要由实时粒子特效模块与高分辨率视频播放模块构成。峰值粒子发射器数为600个,峰值粒子总数超过300万,粒子发射器位置可由来自目标跟踪程序的坐标实时控制,粒子渲染使用HDR技术进行效果增强。视频播放单元支持8K分辨率HAP编码的高品质视频文件实时解码播放,并能使用网络命令控制视频播放以及视频与粒子效果的混合处理模式。
互动视效程序使用渲染周期控制算法优化了多台渲染单元与目标跟踪处理的同步性,最大程度降低系统的全链路处理延迟。
图4 互动视效程序的实验室演示
2.4 视频采集系统
根据前期对演出场地与演出环境的调研数据,视频采集系统由国家体育场六层观众席最高处布设的4台工业摄像机构成,如图5所示。每台摄像机负责场地约1/4区域,以4K、60fps参数运行。摄像机采集的视频数据使用光纤经交换机传输给多目标跟踪程序的运算服务器。视频数据输出采用无压缩RGB形式,传输带宽为10Gbit/s。
图5 视频采集系统的工业相机
考虑到单台采集设备的覆盖范围,以及人物对象跟踪程序的算力开销,本项目将155m×76m的表演区域均分为4个区域,每个区域由1台相机负责。系统采用PTP技术保证4台摄像机的精准时钟同步,有效降低整个系统的处理延迟。
2.5 跟踪运算服务器系统
跟踪运算服务器系统由5台高性能机架式服务器、1台PTP时钟源以及相关网络设备构成,如图6所示。其中4台运算服务器通过以太网接收视频采集系统的图像数据;另1台服务器负责汇总并处理由4台运算服务器得到的坐标数据,并将处理后的坐标数据发送给实时视效渲染服务器。
图6 跟踪运算系统服务器
5台运算服务器与采集系统的4台工业相机借助PTP技术保持时钟同步,这项设计保证了系统四个区域的每一帧画面同时开始采集与运算,以缩减系统从拍摄表演对象至得出对象位置坐标的处理时间。在完成500个对象的实时跟踪时,跟踪运算服务器系统能实现每秒30次以上的坐标数据更新,全链路处理延迟不高于80ms。
2.6 图形渲染服务器系统
图形渲染服务器系统由3台高性能图形渲染服务器构成,如图7所示,每台服务器可输出8K、60fps的视频信号,图形渲染服务器通过万兆以太网交换机与跟踪运算服务器系统进行UDP数据通信,以获取表演对象的坐标数据及辅助数据。
图7 图形渲染服务器
实际应用中,如图8所示,图形渲染服务器系统能够保证互动视效程序全程以每秒60帧的帧率执行实时特效渲染,并借助渲染周期控制算法与nvidia的mosaic技术实现系统多路视频信号输出的同步性。
图8 现场多路视频同步输出
NO.3
项目实施及统筹
本课题的实施主体是北京电影学院智能影像创意团队,并开展于科技冬奥的各个项目实施之中。这些任务和项目要么是具有一定国家战略性,要么是能突出前沿科技的。我所的团队接下来将时间和精力聚焦在了落实开闭幕式节目中的实时视觉效果上。虽然听起来简单,但是在国际舞台上首次引用“实时”的概念,所有人心里都很没底。阻碍、困难和挑战每天都接踵而至,需要持续打磨技术及解决方案,不断追求更好、更完美的效果。于是真正艰巨的任务出现在了我们的视效方案被选定之后。
3.1 节目方案的选定
根据节目设计,由我们负责的互动风雪特效需要叠加在节目已有的视频图案上呈现,而因为互动特效之前没有被任何节目使用,所以实时特效渲染系统还没有和视频画面播放系统完成信号互通,且演员定位系统对实时特效渲染系统的驱动也因针对大规模群体对象识别的技术路线调整而尚未完成,这些现状意味着,如果想在第一次正式彩排就展现出我们的工作效果,必须在一周时间内完成从互动内容的设计、制作到实时图形系统的构建与部署等全流程工作,并且要和轮滑演员的分场导演、灯光、舞美以及LED播放控制等团队协调,才能完成导演要求的全要素彩排。
实施统筹工作中第一个艰巨的任务,是将创意效果通过地面LED呈现给总导演,而对我来说最大的考验就是各种繁杂的交涉工作,例如:和其他视频制作团队和分场导演共享、争取投屏的时间;与播控团队磨合、协调视频与实时特效的切换方式;与地屏显示装置团队商议、测试最佳的系统集成方式;与分场导演和演员沟通、探讨最佳的节目呈现方式;与鸟巢物业部门协商机房、电力、网络的规划及安全相关问题等等。面对如此紧迫的时间和艰难的条件,当节目效果终于在彩排中首次出现,整个团队都为之激动万分。
3.2 节目实施的不确定性
实施统筹的过程中随时都会出现各式各样的问题和变化,而这些统统给工作带来了不小的压力和不确定性。在临近冬奥会开幕的时间里,除了日常的组织协调工作,有时还会面临紧急的“救场”工作。距离开幕式还有不到半个月的时候,我们的实时渲染还没有纳入到地屏显示装置的备份系统中,在经历了同其他多个部门进行积极努力的谈判、协商后,依然没有明确结论。没有备份就意味着“开天窗”,系统随时可能遭受到诸如连接失常等不可预知的风险。此时的团队十分焦虑,在如此重要的仪式上,任何失误的代价都是无法预估的。
虽然条件十分艰难,任务异常庞杂,但是在奥运精神的激励下,团队在临危受命的关键时刻,通力协作,攻坚克难,勇于担当,尽职尽责,以实际行动奉献冬奥,使备份系统的问题由被动推进的态势扭转到主动开展,最终得到了解决,为开幕式的精彩举办提供了更加有力的保障。
在各方的支持配合下,开幕式的实时视觉特效在全球亿万观众瞩目下成功交付,应用在《砥砺前行》和《雪花》两个节目中,也是世界广播史上的一次大胆尝试。
NO.4
展望
在数字娱乐、沉浸式展示、实景演出、文旅等行业,制作互动视觉效果的需求越来越常见。本项目针对冬奥大型演出的实际需求,打造出“AI+互动+艺术”的科技应用示范,利用人工智能(AI)技术,研发多模态数字文化内容呈现及交互系统,构建数字奥运文化体验空间;利用沉浸式多媒体展示技术和多模态人机交互系统,营造奥运文化的沉浸式体验,并能基于此开展具有冬奥特色的智慧伴游、智慧展示文旅融合等应用示范。
end
参考文献
[1]BOCHKOVSKIY A, WANG C Y, LIAO H Y M. YOLOv4: optimal speed and accuracy of object detection"[EB/OL]. 2020: arXiv: 2004.10934. https://arxiv.org/abs/2004.10934".
《广播与电视技术》、“广电猎酷”广告经营与商务合作代理:
北京中广信通文化传媒有限公司
联系人:李聪
联系电话:18518221868
好文共赏请转发 有话要说请留言