-->
保存您的免费座位流媒体连接今年八月. 现在注册!
  • 2020年9月24日
  • By Gaurav Arora 新思国际副总裁,负责系统架构和AI/ML技术
  • 博客

基于人工智能的缩放是经济高效的4K UHD内容交付的关键

文章特色图片

边缘计算的实用人工智能——以用于神经网络推理的紧凑软件和芯片级硬件加速的形式——正在颠覆许多网络运营商考虑提供面向用户服务的方式. 在多通道视频节目分销商(mvpd)中, 网络运营商, 以及5G无线系统内容交付网络(cdn)的架构师, 关于本地私人助理的讨论正在升温, 认知和预测用户界面, 还有一些全新的服务. 所有这些想法都可以使供应商网络与众不同, 潜在地增加用户基础,减少流失.

但人工智能对视频内容提供商最重要的近期影响可能完全在另一个方向. 基于人工智能的超级分辨率——一种新兴的技术,它使用深度学习推理来提高图像的感知分辨率,超出输入数据的分辨率——可以在新的4K显示器上从1k分辨率源获得引人注目的4K超高清(UHD)体验. 这个相当不直观的结果转化为用户对突然可用的4K内容范围感到高兴,运营商对存储空间的显着减少感到高兴, 远程缓存, 和带宽需求以及由此带来的整个系统的能源节约——与使用原生4K文件相比.

这似乎是一个相当学术性的观点, 是最有效的, 超分辨率的接收端必须在极端的网络边缘执行:用户场所. 但接收器的深度学习推理任务可能是高度计算密集型的, 尤其是流媒体视频的实时性限制. 在新思国际, 我们已经能够证明神经处理单元, 紧凑的深度学习推理加速器集成到我们最新的机顶式SoC中, 可以实时进行超分辨率图像扩展吗, 让挑剔的观众感到满意.

它是如何工作的

今天, 想要向用户提供4K内容的运营商必须至少存储每个节目的两个压缩版本:一个是4K超高清分辨率的, 一个是1K高清或全高清(HD/FHD)格式. 更大的4K文件将流式传输给拥有4K显示器并享受必要网络带宽的用户. HD或FHD文件将流式传输给具有较低分辨率显示器或带宽限制的用户. 在前端, 核心数据中心, 或者远程缓存, 系统必须选择, 一段一段地, 满足两个文件之间自适应比特率控制的要求. 这种切换可能会给使用4K显示器的观众带来图像质量的不和谐变化.

更糟糕的是, 4K文件比较大, 而且节目内容的重复耗费了存储空间和远程缓存空间. 流式传输完整的4K文件会占用宝贵的网络带宽. 考虑到这些因素,供应商在任何时候都愿意提供4K节目的数量受到严格限制.

基于人工智能的超分辨率完全改变了这一局面. 它允许运营商不仅提供HD/FHD,而且仅从1k大小的程序文件中提供引人注目的UHD体验. 它的工作原理是将卷积神经网络(cnn)执行的空间图像压缩与HEVC或AVC编解码器的主要时间压缩结合起来.

幕后故事

研究人员发现,在一段内容上训练的一对cnn可以通过缩小和扩大每个单独的帧来实现非常显著的文件大小减少, 最终显示设备上的图像质量几乎没有感知损失. 在实践中, 内容提供商将为他们希望提供的每一段4K内容创建两个CNN推理模型. 对于每一段内容,他们将使用4K视频文件, 一帧一帧地, 作为训练两个CNN模型的输入数据:一个用于将每帧内容从4K降至1K, 另一个用于将生成的1K帧放大到4K. 值得注意的是, 这种密集的训练过程创建了一个相当紧凑的升级CNN模型,实际上可以恢复边缘清晰度, 表面纹理, 以及一些在传输的1K帧中没有明确呈现的细节.

因为这两个模型都是经过训练的, 在实际的内容上, 降尺度模型已经学会了(使用一个不恰当的拟人化术语)如何去除细节,从而使升尺度模型能够正确地恢复细节. 想象一下, 如果你愿意, 描摹在照片上画出轮廓图, 然后请一位熟练的画家从你的轮廓画中创作出一幅逼真的艺术品. 因为你可以告诉艺术家绘画的内容——哪些线条应该是平滑的,哪些线条应该是锯齿状的, 哪个表面纹理应该是羽毛,哪个是不锈钢, 天空中的小斑点是一只海鸥——艺术家可以正确地填充线条画中没有出现的细节.

与预定义的启发式或纯数学压缩技术相比,这种深度学习训练过程可以显著提高特定内容的缩放质量. 它与传统的视频编解码器兼容.

就像任何深度学习网络的训练一样, 产生这两个CNN模型的训练过程是复杂和漫长的. 最好在数据中心或云中完成. 但是经过训练的模型本身——实际上可以进行向下和向上缩放的部件——可以非常紧凑和快速. 特别是升级模型可以做得足够小,以便在智能流媒体设备或机顶盒中执行. 随着强大的芯片级神经网络推理加速器进入市场, 该模型可以实时处理帧.

行动中的过程

在实践中, 内容所有者或服务提供商将首先为每条内容训练缩小和扩大的CNN模型. 然后他们会使用降比例模型将视频内容的每一帧从4K分辨率转换为1K分辨率. 下一个, 他们会像往常一样用HEVC或AVC编码器压缩1K视频流, 加密它, 并将压缩流和内容的相对较小的升级CNN模型分发到内容存储站点.

对需求, 如果要以4K分辨率观看内容,提供商将首先将升级的CNN模型传输到接收设备. 该模型非常紧凑——通常大约1 mb——因此下载速度通常太快,用户不会遇到任何延迟.  接下来,提供商将开始流式传输压缩视频. 接收设备将HEVC或AVC流解密解码成1k分辨率的帧. 然后,它将应用升级CNN模型将每帧缩放回4K分辨率以显示. 由此产生的视频体验将无法区分, 对大多数观众来说, 完整的端到端4K传输.

但是等等……

熟悉机顶盒架构的读者可能已经发现了这个场景的一个严重问题. 版权内容, MovieLabs增强内容保护方案等指导方针要求,任何未加密的内容只能在所谓的安全媒体管道中处理. 没有开放的软件环境, 比如机顶盒CPU, 可能对未加密的数据流有物理访问.

在今天的机顶盒里, 这意味着解密, 解码, 和帧缓冲数据路径硬件必须在物理上与cpu可访问的硬件隔离. 但是通过超级分辨率,我们增加了另一个复杂的功能块, 在中央处理器的控制下, 到这个数据路径.

这使得有必要保持防泄漏, 硬件强制分离推理加速器中的控制平面和数据平面. 图1 (在页面顶部)说明了安全媒体管道系统中可信环境与富执行环境的分离. 这一要求使得在CPU或GPU中实现推理加速器数据路径非常困难. 即使有一个信任的硬件根和一个安全的引导过程, 当视频流通过一个可以从RAM执行代码并且有任何通往外部世界的路径的设备时,要证明视频流是安全的将是非常困难的. 但是,在这种分离的环境中实现硬件神经处理单元而不为数据泄漏创建路径是可能的, 的SyKure框图所示 图2 (点击查看全尺寸版本).

新思国际 SyKure

底线

目前,内容提供商已经在生产中部署了基于人工智能的超分辨率技术. 用它, 它们可以消除4K内容文件的使用, 使他们能够在节省存储空间的同时提供更广泛的4k质量内容, 缓存, 和带宽. 但是要做到这一点, 他们必须指定具有神经网络推理加速器硬件的接收端设备:足够快以保证每帧的实时升级, 硬件安全经得起版权所有者的严格审查. 机会在等待.

[编者注:本文署名来自。 新思国际. 流媒体接受供应商署名完全基于它们对我们读者的价值.]

流媒体覆盖
免费的
合资格订户
现在就订阅 最新一期 过去的问题
相关文章

通过VVC的采用释放4K流媒体的承诺

MediaKind的Tony Jones讨论了通用视频编码(VVC)的稳定采用率及其众多好处, 例如显著的成本节约和降低了流媒体的能耗.

利用人工智能加速内容生产和交付的3种方法

如果没有人工智能和机器学习,许多工作流程中生成的大量视频是不可能管理的. 以下是如何利用它使您的视频制作工作流程更高效和富有成效的例子.