基于XPU的硬件战略、开放的软件栈,英特尔正在推动音视频产业向动态、丰富、多维和可交互的下一个拐点迈进
作者|斗斗
出品|产业家
2022年被称为“云演出”元年。
从上亿人涌入周杰伦线上演唱会,到 westlife 为中国歌迷定制线上演唱会在朋友圈刷屏。“云演出”把人们从疫情的阴霾中,瞬间拉到那个人声鼎沸的现场。
人们在追忆青春、缅怀过去的同时,也在惊叹线上演出带来的视听盛宴。
过去,短信、网站是唯一与明星互动的方式;后来直播兴起,在线为偶像打 call,拉近了粉丝和明星之间的距离,但在延迟时间、卡顿频率方面却不尽人意。例如,在体育赛事直播中,时常会出现赛点卡顿的现象,当恢复正常后,却早已错过精彩瞬间;如今,随着直播技术的优化和升级,这些都发生了基础性的改变,即时互动、视频流畅已经成为标配。
而在直播行业迅速发展的背后,也是音视频厂商不断以技术和服务赋能,从而带动产业向上发展的一个缩影。
疫情之下,出行受限,线上演出、线上办公、线上招聘、直播带货成为常态;另外,元宇宙概念下,VR、AR领域再次兴起;加之短视频平台较强的增长趋势。越来越多的应用场景被挖掘。
据IDC发布的《中国视频云市场跟踪(2021上半年)》显示,2021 上半年中国视频云市场规模达到 43.7 亿美元,同比增长达到 38.7%。
毋庸置疑,音视频赛道正迎来前所未有的发展机遇。
然而,新的机遇也对应着新的挑战。站在风口的音视频赛道,谁会成为下一个破局者?
一、风口之下,再现产业困境
1872年,英国的摄影师麦布里奇,为了验证马在奔跑过程中是否会四蹄腾空,借助 24 台相机,连续拍摄了 24 张照片,由此创造了人类历史上第一个“视频”。1877 年,著名发明家爱迪生在他的“圆筒留声机”上,录下了他亲自朗读的《玛丽有只小羊羔》的歌词。这短短数秒的声音,成为了人类历史上第一条音频。
由此,人类正式进入了音视频时代。
技术更迭下,音视频从胶片转向光盘,继而转向手机、电脑等移动设备上,承载方式不断更迭。进入 21 世纪后,短视频业务的爆发,以及全民直播的兴起,更是将音视频平民化推向了新的高潮。
这期间,“流量”成为用户更加关注的指标。而互联网音视频平台及其底层技术,无论是消费者、企业还是投资人,并没有对它产生过多的关注。
然而,新冠疫情的爆发,打破了这种固有的局面。
受疫情催化下,商业活动以及人口流动受阻,导致远程协作与线上娱乐刚性强需求瞬间释放。
例如,企业线下活动被迫迁移线上、大量企业采取远程办公的模式代替线下办公方式、学校开办“云”课堂……使得实时互动需求猛增。据咨询公司 IDC 数据披露,2020 全年,中国视频会议市场规模较同比上涨 18.9%,达到约 65.2 亿元人民币,呈现爆发式增长。
另外,线上教育场景的市场规模也迎来划时代的增长趋势,相关数据显示,2020年中国教育实时音视频市场规模较2019同比增长46.9%,达到47亿元。
音视频的应用愈发广泛。进而刺激了市场规模快速增长。具体数据显示,2020年中国音视频解决方案市场规模突破 400 亿,年增长率超过 55.1%。
在技术革新和市场环境的双重作用下,音视频已经成为互联网“煤、水、电”般重要的存在,逐渐成为互联网产业的底层新基建之一。
然而,伴随音视频行业的发展热潮,音视频系统在各应用场景中的渗透率趋近饱和,加之用户对极致体验的追求,使得各平台对技术层面有了更多元化的需求,底层算力面临的挑战也不断增加。
就拿直播而言,随着大数据、云计算等新兴技术的兴起,以及 5G 等通信技术的飞速发展,直播上云已经成为趋势,音视频系统如何与云平台无障碍连接成为新的需求。
其次,随着各类高清视听设备加速渗透,需要技术解决方案能更快应对更高清晰度、更低时延的视频编解码和转码。从而应对 1080P、2K 乃至 4K 视频下不断“扩容”的音视频数据流。
另外,当下直播生态化成大势所趋,需要与电商、业务等更多服务平台连接,这对承载音视频能力的底层基础设施提出更高要求,这些要求包括更快的计算处理能力、更灵活的算力分布方案、更优的数据存储性能以及更强的网络吞吐能力等。
加之当下AI技术 不断赋能直播,如产品推荐、即时特效、兴趣内容信息流、虚拟形象等,使音视频能力与AI 技术深度融合。如何为音视频能力提供高效的 AI 框架和加速能力也成为当下新直播场景的新需求。
总结来看,在新兴技术的飞速发展下,音视频技术需要不断升级以支持新应用、新模式和新场景下的需求。
一个事实是,目前对于整个音视频赛道来说,不仅需要上层软件系统的优化,也需要在底层硬件基础设施上,寻求破局之法。基于此,才能实现音视频赛道真正意义上颠覆性、创新性的技术升级。
二、“软件优化+硬件加速”,锚定性能提升
破局的关键,往往在于底层基础。
2021年 2 月 9 日 24 时,新年的钟声准时响起,对于中国的老百姓而言,全家围坐电视机前,一起观看春节联欢晚会电视直播是每一个新年的标配。
然而,与以往不同的是,由于疫情的影响,这一年的春晚首次采用“云直播”的形式,需要高并发视频流的处理,将正在录制的视频上传云服务器,处理后分发向数量庞大的用户终端。
基于此,在直播场景下,如何在云上实现高效转码、降低延时和提升画质等,成为各大云厂商面临的挑战,需要不断对自身平台的音视频底层架构和技术进行优化与升级。
以金山云为例,为了在提升画质、降低带宽压力的同时,提升云转码的性能表现,实现更高的性能密度,其在“集智高清”的云服务器中搭载了英特尔® 至强® 处理器。
其中,处理器针对公有云应用负载的特点进行了定制与优化,提供了高达 32 个物理核心,运行频率达到 2.6GHz。在单核性能、核心数量等方面都实现了显著提升,为“集智高清”系统的云转码性能提升奠定了坚实基础。
另外,集智高清的应用场景对延迟有着严苛的要求,因此金山云使用了英特尔® AVX-512 来优化卷积的重载。与传统卷积实现相比,这种方式具备无需对源图像进行扩边、无需填充过滤器、无需传输整个过滤缓冲区、无需旋转源图像/滤镜/输出等优势,可以有效减小在线图像处理时延和带宽问题。
在英特尔® AVX-512 指令集的支持下,金山云ERJND 模块能够实现 48-103 倍的性能提升。
除此之外,英特尔® 集成性能原件也为新方案提供了性能优化。
英特尔® IPP 能够在一个函数调用中快速实现离散余弦变换(DCT),在提升运算效率的同时,极大精简了书写代码量。通过使用英特尔® IPP 库函数、优化算法以最小化内存占用、英特尔® AVX-512 指令集优化等方式,金山云在 DCT 计算等方面实现 3 倍左右的性能提升。
优化前后 DCT 性能对比
另外,金山云还依托英特尔® 至强® 处理器集成的英特尔® 深度学习加速(英特尔® DL Boost)技术,将“集智高清”深度学习应用中数值精度为 FP32 的模型转换成为使用 VNNI 指令集进行优化的 INT8 数值精度。
采用 INT8 等较低精度的数值可以更好地使用高速缓存,增加内存数据传输效率,减少带宽瓶颈,从而能够更为充分地利用计算和存储资源,并降低系统功率。
这意味着,在同样资源的支持下,INT8 可为深度学习的推理带来更多的每秒操作数(Operations Per Second,OPS)。通过该方式,金山云在精度符合需求的前提下,大幅提升深度学习的性能。
在英特尔软硬件产品与技术的助力下,金山云视频解决方案实现了大幅节省带宽、视频体验更优、画面品质提升、时延更低等诸多增益。
英特尔硬件基础设施就像一个“性能加速器”,通过英特尔® 至强® 可扩展处理器、英特尔® FPGA 产品、英特尔® 傲腾™ 持久内存等硬件产品组合,为各类基于音视频的创新方案提供强劲的计算、存储和网络处理能力。
而软件则更像“系统优化器”,在不同应用场景中以完整的软件栈来加速音视频能力的工作效能。
软硬结合下,英特尔为各类平台提供基于云或数据中心的音视频处理能力、专业高效的编解码/转码能力,赋能云服务提供商为用户带来更流畅、更高清、交互更简捷、价格更实惠的视听体验。同时,也使云厂商可以更有效地推动系统优化,降低运营成本。最终实现了“1+1>2”的协同效应。
三、新场景衍生新价值,走向产业拐点
新场景下,音视频行业价值被重新定义。
随着音视频产品、技术的升级迭代,不断促进着新模式、新业态的发展。于此同时也为新的应用场景带来了更多想象空间。
2021年下半年,元宇宙概念火爆出圈,受到资本圈的高度认可。其中,沉浸、交互、实时的全真音视频无疑成为元宇宙的重要呈现形式之一。
短期看,元宇宙的热度促进了音视频VR技术需求的释放,实现了音视频解决方案市场的小规模增长。但从长期发展的角度来看,元宇宙更像是一个音视频赛道下,新应用场景的缩影。英特尔在助力音视频技术不断迭代升级下,为元宇宙的应用场景提供了充足的“养分”。
目前,在与元宇宙有很强技术重叠性的云游戏场景中,高速发展的市场规模与不断丰富的游戏品类,给云游戏平台带来更多挑战,需要具备强大算力和图形处理能力,以提供低时延、高画质的极致体验,同时也需要选择更具性价比的软硬件产品来搭建基础能力平台。
作为智能设备制造商中的持续创新者,OPPO 结合实际业务和基础架构,推出了搭载英特尔® 服务器 GPU 、英特尔® 至强® 可扩展处理器,以及英特尔® Android Cloud Gaming Software Stack(ACGSS)软件栈的 OPPO 云游戏平台,实现了显著的性能提升,在保障用户流畅、稳定的游戏体验同时,也有效控制了TCO。
OPPO 云游戏平台
从XPU的硬件战略到开放的软件栈,英特尔通过英特尔® 至强® 可扩展处理器、英特尔® FPGA产品、英特尔® 傲腾™ 持久内存,以及英特尔® 以太网网络适配器、英特尔® 视觉云媒体分析加速卡等硬件产品,为各场景下基于音视频能力的创新方案提供强劲的计算、存储和网络处理能力;在软件优化加速上,英特尔的 Media SDK、 SVT、英特尔® oneAPI等,都能帮助实现在不同应用场景中以完整的软件栈来加速音视频能力的工作效能,助力用户快速建立从数据到应用的端到端整体方案,并实现更优硬件性能。
随着音视频在元宇宙、智能家居、IoT、医疗等应用场景更加广泛,英特尔将基于这些产品和软硬一体端到端的技术方案,不断满足各种应用场景下对音视频技术能力的需求,充分体现灵活、可靠、高效的架构优势。不断聚焦新场景,赋能“千行百业”,从而推动音视频产业向动态、丰富、多维和可交互的下一个拐点迈进。
目前,在AR/VR场景,英特尔与北京移动,当红齐天打造了 5G VR 电竞新体验;在智能语音场景,英特尔助力腾讯云小微,提升了实时语音合成性能……除此之外,英特尔正在不断满足更多互联网应用对音视频能力的需求,点击阅读原文了解更多音视频创新实践案例~