大数跨境
0
0

RTE2021 回顾丨智感超清:给你最优的视觉盛宴!

RTE2021 回顾丨智感超清:给你最优的视觉盛宴! RTE开发者社区
2021-12-03
0
导读:RTE2021 技术演讲回顾

本文整理自百度智能云视频云音视频处理技术架构师邢怀飞,在由声网 Agora 主办的 RTE2021 实时互联网大会上的技术分享。在演讲中他主要分享了智感超清在视频重置中的应用,一张张清晰可见的实例场景图片,为我们清晰的展示了智感超清产品的优化和技术落地。


▲图:百度智能云视频云音视频处理技术架构师邢怀飞


演讲主要包括视频重制的技术背景,智感超清的核心技术,产品性能质量优化,如何解决实际场景中的问题等几个方面。最后我们会用案例介绍部分产品应用落地的实践。




5G 一直是一个很火的主题,从大的背景来说,5G 会带来更高的带宽,更低的延迟,从客户需求讲,用户对于视频的需求,用户体验的感觉越来越高,比如在长视频场景中,像爱奇艺,不再局限于低清、标清、高清、蓝光,现在又推出来比蓝光更高的『帧绮映画』,腾讯视频推出『帧彩』, 在技术上就是 4K 和 HDR 结合的技术,后面在互联网的场景下会更多落地。


人工智能每年都有很多的论文、会议和比赛,人工智能在视频重制场景上能给大家带来什么,我们访问了很多的电影厂发现传统的老片修复效率非常低,对人工消耗非常高,恰恰现在有存量很多的海量的老片,媒资数字资产都需要保护,如何提高修复效率是一个亟待解决的问题,这时人工智能有了用武之地,它们能够帮传统产业解决老片修复效率低的问题。


超高清是 5G 的一个杀手级应用,正是因为超高清的出现,互联网用户的视频视觉体验才越来越好。



超高清视频的制作对我们提出了更高的技术要求,视频的画质被要求越来越高,我们左上角有一幅图,是超高清的六要素,如何达到更高的用户体验,不仅仅体现在分辨率上,帧率上,更重要的是体现在 HDR,高动态范围、宽色域上,可能给人更高的颜色的鲜亮,更高的颜色饱和度。高动态范围范围,包括暗部和亮部,有更多细节产生。


从应用角度,我们做了智能画质提升和智能老片修复的类型划分,我们认为智能老片修复是非常专业的领域,对技术的要求,跟普通互联网上的视频,或者年代比较近的视频要求不一样,所以这也是我们重点优化的技术。我们会用到划痕去除、噪声去除,去闪烁等等技术。


在视频处理完后,我们还要进行智能编码,在超高清上,智能编码和内容自适应编码,起到了很重要的降低压缩率的作用,它们可以跟分发协议融合。我们在智能视频编辑方面也为客户提供很多原则化工具,比如黑边的智能横转竖等,客户可以自主选择。


下面介绍技术需求和挑战,我们发现现实的场景远比想象的更复杂。首先互联网上的视频的噪声类型很多,有一些是压缩带来的块噪声,有一些是模糊或者码率太低,有些振铃很多。其次是老片的内容,从五六十年代、七八十年代一直到现在,采集手段也不一样,比如老的电影是胶片,有划痕,有霉斑,八九十年代有磁带,拉毛等等,如上视频问题成因多种多样,如何处理这些残旧的视频文件对我们来说都具有挑战性。



从应用来讲,点播场景经常会要求同比处理相关视频。另外是在处理效率方面,刚刚提到,一个处理的模型有大有小,但是客户要求保障生产效率,如何达成生产效率,在实际生产中用起来,也是要解决的问题。比如我们团队提供了很多模型和算子,我们发现把这些算子和模型同步跑起来发现显存不够了,这也是我们面对非常严峻的问题。




接下来介绍我们团队提供的一些技术。这是百度智能云已经真实提供的一些能力,各家云厂商都提供了一些基本能力,主打的是智能化,主要是智能视频处理,比如超分、增强、画质提升,第二是老片修复,第三个是智能视频编辑,第二部分是智能视频编码,视频内容自适应编码、核心编码算法,还有硬件加速的方案,同时我们也提供了全景声的处理能力。



智能视频处理技术在智能画质提升方面有显著效果,我们公司在超分上应用了前后根对齐融合的视频集超分算法。在 HDR 的生成上,有独特的方法。在智能老片修复门类上,视频被要求去噪,划痕去除,视频增强,老片上色等,这些操作都具备各种各样的原子能力。



目前我们公司已经有上线且相对稳定的第一代模型,我们在空间分辨率上用了 U 型的超分辨率的模型,按照分层的从粗到细的多级结连提升的框架,通过这个模型,在细节可以达成更细的效果。现在也在探索下一代在视频级别模型。



如下图示是目前正在定型的比较新的视频级别的模型,这个模型的特点是跟图片级别不同,这里更多利用了前后帧的参考关系,在前向和后向上,在视频特征上进行特征对齐,有跨层的连接,更能充分的生成视频的细节,在视频时序的连续性上有比较好的效果。



刚才通过比较突出了我们公司在 HDR 的上变换方面有自研的模型,特点是利用全局和局部特征融合的方式,HDR 的需求最重要的是不但在暗部,HDR 说动态范围更宽,因为亮度会更亮,比如要达到一千尼特,并不是做整体增强,把亮度提升上去,而是要考虑局部的暗部细节的特征和亮部的特征,这样就需要全局的信息和局部的信息,需要做融合的机制。我们公司在这个技术上有相关论文发表。



在效率方面,此技术比之前版本有六倍速度的提升。在工程上,我们也支持了不同格式,不同 HDR 格式相互的转换。


在老片处理方面,我们也研发了专门的处理的技术。对于划痕,可以分为两块,第一步把划痕检测出来,第二步利用现有技术,把划痕填补出来,检测方案用了循环迭代式的方式,也是利用前后帧的特征,特点是预测出来的划痕,能够被判别为一个划痕的概率,提供了可设置的机会,因为很多的 AI 模型都是端到端的黑盒,但是我们希望用户在使用的时候,根据片子的程度,可以设定阈值,确定检测出来的划痕是什么样的程度,减少检测错误率。


智能填补采用了 GAN 方式,一是生成器,还有一个是判别器,尽量跟原始的真实画面逼近,最后给出判别。在老片方向上,我们积累了大量行业的数据,前期跟电影频道合作时,面对海量的真实人工修复的场景,工作量非常大,我们都是用专业的软件,像达芬奇等等工具进行修复。 


接下来再介绍一下智能视频编码,这个技术上线了两年时间,其实思路跟其它技术相比都比较类似,我们公司的方案是一个端到端的提取了时域特征和频域特征,用 CNN 端到端的预测的特征,端到端预测最优的编码参数。智能转码会根据输入视频,或者任务的复杂度,输入视频的特性,输入任务的复杂度预测出一定的计算资源,在点播场景,能达到一定转码速度,直播场景必须要达到相对的水平,我们用大量训练数据,用硬件编码和软件编码,甚至不同 CPU 的输入参数条件做相关研究测试,我们的模型都做到了一个灵活的适配。



 


接下来介绍在性能工程上的优化。如下是产品化的框图,刚才的技术也有介绍,在设计上采用了公有云、私有云一体机同构化设计,不仅提供公有云服务,在广电场景上,还能够采用一体机的方式,但都是同站的,不用重新开发所有模型,都是容器化的运行方式。在推理方面,也采用 CPU、GPU、ASIC 异构的计算框架,所有的 AI,主要还是在 GPU 上做,也支持英伟达的 GPU,和国产昆仑的芯片,我们公司自研的芯片,灵活支持第三方存储。



AI 视频处理提供了很多的算子,或者算法,如何去灵活的给用户选择,对我们来说也是一个比较有挑战性的工作。我们面临效果和效率的选择,如何更好的适配,也是不断探索优化的问题。


接下来介绍工程上目前的 AI 推理的框架,从框架来说,每个单列的算子,都当成一个滤镜,跟 FFmpeg Filter 里面的滤镜类似,好处是可以比较灵活的组合,如果既需要超分插帧增强,可以串行,如果只需要单个,也可以。在推理方面,也是他们公司的要求,全量使用公司 Paddle 的框架,好处是 Paddle 在底层给了大量的优化支持,因为 Paddle 本身就可以支持英伟达和昆仑,可以有加速的优化,有英伟达的同事,也提到了像 TensorRT 的工具,可以进行在速度上的优化。



刚刚提到了速度,这是客户的要求,如何提升端到端的处理速度,跟视频编码也类似,如果想达成好的效果,从算法开始,算法同学就提供了一个模型,发现要么是显存占用率比较高,要么是速度太慢,但是最终还是要解决客户的问题,所以可以提出一些要求,但是从策略上,我们公司做了这几件事情,优化这个效果。第一,在工程层面,是多片并行转码,比较常规的做法。第二,在流水线上,在单机上,把多卡的资源能够并行利用起来。第三,是模型层面,最早的模型都是 FP32 的精度,现在也都全量做了 FP16 的优化,后续的优化,也需要做更多探索。





在前面一些技术的基础上,推出了智能老片修复的解决方案,我们也一直在思考这个问题,老片是一个非常专业的领域,也有很多从业的人,比如电影频道,还有很多国家老的电影厂,都有很多次的交流和探索。我们团队也深入的了解了,我们整个工艺的流程,比如原始的老片,可以经过先粗修,可以看到大的噪声,大的斑点的样子。第二步是精修环节,非常损耗人力,修一帧,需要一个老师一天时间,成本非常高。第三步调色,类似于电影拍摄后期制作的环节。在这里,现在的人工智能技术,包括他们的模型,还没有达到一步就能够把老片处理好的程度,能做的是利用模型,做可配置的选项,比如可以人工配置阈值可调节,去噪水平,划痕检测水平,有选项可选,能够嵌入到现有的什么的工艺流程里,最后再上色,多维度提升,也是在前进中的技术方案。


关于相对比较有用的策略,在很多其他场景也有应用,智能多 ROI 的增强处理方案,之前提到 ROI 的编码,多分配码率,ROI 的增强处理,也是因为很多AI模型,如果一体化整个视频都用同样的模型跑,或同样的策略去跑,还有些问题,比如有一个老片《水浒传》,里边鲁智深,是一个非常汉子的形象,非常粗犷的形象,如果 AI 处理的不好,处理成类似于美颜或者磨皮,变成一个小白脸,人眼对这种情况非常非常敏感,一眼就看出有问题。再比如 AI 处理的时候,如果片子质量非常差,经过AI增强后,或处理后,甚至看上去比不处理还糟糕,因为它把非常模糊的人脸,变成很假的纸面人跟鬼一样的吓人的形象。



如何解决这个问题,我们可以采用偏工程策略,首先把人脸、字幕,把前景和背景做分割。同时我们还有一些需求,比如政治人物,或一些前期的国家领导人,如果给他做的不合适,是犯政治性错误的,这是非常严谨的事情。更期望把人脸用 AI 方法检测出来,用一些特殊的手段技术做优化,分区美化。


字幕视觉美化也是非常常见的场景,很多片子是从老的电视台过来的,人眼对字幕非常敏感,经过处理后,要考虑会不会产生一些锯齿,会不会产生模糊的问题,比较理想的效果是,边缘有锐化,有增强,还不能有太过的梯度产生。我们经过了字幕区的检测和增强的算法后,可以看到效果的锯齿效应都有很明显的改善。



接下来我们一起看个综合的 Demo 演示。超分增强的效果,案例中老片修复,划痕处理,是完全自动化,没有人工干预的效果,后面的背景划痕已经被去除,还有一个大的噪斑。这是老图片增强和上色的最终效果。



简单说一下,我们团队做 2B 工作,客户就来自广电传媒、互联网,传统的像电影频道,还有一些运营商等等,也有互联网的一些客户。我们的目标是:通过我们的技术推进产业化的一些项目落地。未来,百度智能云也会持续追求打造更优质的视频技术,更好服务于大众真实的生活场景,推动视频行业发展进步!




往期回顾

RTE2021 回顾丨面向 RTE 场景的新一代 API 探索和实践

RTE2021 回顾丨实时语音活动背后的质量监控

RTE2021 回顾丨一增两减,助力深度学习在实时推理场景中的应用

RTE2021 回顾丨WebRTC 漫漫成长路,下一个十年将走向何方?

RTE2021 回顾丨基于深度学习的音频编/解码的实现与落地挑战

【声明】内容源于网络
0
0
RTE开发者社区
RTE 开发者社区是聚焦实时互动领域的中立开发者社区。不止于纯粹的技术交流,我们相信开发者具备更加丰盈的个体价值。行业发展变革、开发者职涯发展、技术创业创新资源,我们将陪跑开发者,共享、共建、共成长。
内容 1122
粉丝 0
RTE开发者社区 RTE 开发者社区是聚焦实时互动领域的中立开发者社区。不止于纯粹的技术交流,我们相信开发者具备更加丰盈的个体价值。行业发展变革、开发者职涯发展、技术创业创新资源,我们将陪跑开发者,共享、共建、共成长。
总阅读653
粉丝0
内容1.1k