IJCAI'24｜端到端，无需预先对齐！首创视频人脸修复算法PGTFormer：革新视频人脸清晰度！

极市平台

2024-09-02

↑ 点击蓝字关注极市平台

作者丨徐克鹏

编辑丨极市平台

极市导读

本文提出了一种全新且专门为视频人脸修复设计的端到端方法PGTFormer，PGTFormer突破性地摒弃了传统对齐步骤，实现了更高效、更连贯的恢复效果。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

引言

视频人脸恢复效果展示。左侧为低质量视频人脸，右侧为恢复后的高质量结果。

视频人脸恢复一直是计算机视觉领域的研究热点。然而，现有的方法大多侧重于静态图像处理，难以有效捕捉视频中的时序信息。这些方法通常依赖复杂的对齐操作，且在处理长视频时，容易产生恢复结果不一致的现象。为了解决这些问题，研究者提出了PGTFormer（Parsing-Guided Temporal-Coherent Transformer），这是一种全新且专门为视频人脸修复设计的端到端方法。PGTFormer突破性地摒弃了传统对齐步骤，实现了更高效、更连贯的恢复效果。

此项研究已被IJCAI 2024录用

论文地址：https://arxiv.org/abs/2404.13640
论文主页： https://kepengxu.github.io/projects/pgtformer/
开源代码地址：https://github.com/kepengxu/PGTFormer
研究者主页：https://kepengxu.github.io

方法介绍

设计动机

图示展示了以往方案与PGTFormer在视频人脸恢复中的处理流程差异。(a)为传统方法复杂的对齐步骤，(b)为PGTFormer的端到端视频恢复流程，无需对齐。

当前的视频人脸恢复方法在时序一致性和对齐操作上存在较大挑战。许多方法为了保持视频帧间的一致性，依赖精确的对齐，这不仅增加了计算复杂度，还可能引入误差，影响恢复效果。为了克服这些挑战，研究者设计了PGTFormer。该方法引入了解析引导和时序一致性建模，完全摒弃了对齐操作，实现了端到端的视频人脸恢复，简化了处理流程，并大幅提升了结果的一致性和视觉效果。

网络结构

PGTFormer的网络结构旨在从根本上解决视频人脸恢复中的关键难题。其训练过程分为两个主要阶段：

第一阶段 - 训练TS-VQGAN（时空VQGAN）：
在该阶段，研究者首先训练TS-VQGAN。该模型通过嵌入高质量的视频人脸先验，为PGTFormer后续的恢复任务提供了强大的基础。TS-VQGAN能够有效地捕捉和表示高质量人脸的时空特征，生成与真实人脸非常接近的先验嵌入。这些嵌入在后续步骤中作为PGTFormer的查询目标。
第二阶段 - 训练PGTFormer：
在第二阶段，PGTFormer通过人脸解析模块和时空Transformer模块，利用第一阶段中训练得到的高质量视频人脸先验，完成视频人脸恢复任务。具体而言，PGTFormer首先解析输入的低质量视频帧，提取出关键的面部特征，然后通过时空Transformer模块，从TS-VQGAN生成的高质量人脸先验中提取相应的细节信息。最终，解码器将这些高质量特征整合到原始视频中，输出高清且时序一致性强的恢复视频。

实验结果

为了验证PGTFormer的有效性，研究者在多个公开数据集上与其他最先进的方法进行了比较。以下展示了PGTFormer与其他方法在多个定量指标上的表现，涵盖了对齐和非对齐人脸视频的训练和测试结果。

如表格所示，PGTFormer在多个关键指标上显著超越了现有的最先进方法，具体表现在以下几个方面：

PSNR（峰值信噪比）：在对齐和非对齐人脸视频上的PSNR值分别达到30.74和29.66，远高于其他方法，表明PGTFormer在图像质量重建上的卓越能力。
SSIM（结构相似性）：PGTFormer在SSIM指标上表现出色，对齐和非对齐数据集上的SSIM值分别为0.8668和0.8408，明显优于其他方法，证明了PGTFormer在保持结构一致性方面的优势。
LPIPS（感知相似度）：PGTFormer在LPIPS指标上取得了最低值，分别为0.2095（对齐）和0.2230（非对齐），表明PGTFormer生成的图像与高质量图像的差异最小，具有更好的视觉效果。
Deg、LMD、TLME、MSRL：PGTFormer在这些评价面部特征、扭曲程度、时间一致性和细节保留的指标上全面领先，展现出强大的全方位恢复能力。

主观对比结果

除了定量评价，研究者还进行了大量的主观视觉对比实验，结果清晰展示了PGTFormer在视频人脸恢复中的卓越表现：

图示展示了PGTFormer与其他方法在视觉效果上的差异。PGTFormer在细节保留、伪影去除及面部自然度上表现更为出色。

主观视觉对比结果表明，PGTFormer在恢复面部细节方面表现突出，如眼睛、嘴巴的轮廓和纹理。与其他方法相比，PGTFormer生成的人脸更加生动，色彩还原度更高，几乎没有伪影和不自然的过渡。

结论

PGTFormer作为首个专为视频人脸恢复设计的方法，在该领域中开创了一个全新的方向。其端到端的设计彻底解决了传统方法中复杂且易引入误差的对齐操作问题，同时通过解析引导和时序一致性建模，实现了高效且自然的视频人脸恢复。未来，研究者计划进一步优化网络结构，并将其应用于更广泛的视频增强任务，期待PGTFormer在更多实际场景中展现其卓越的性能。

参考文献

K Xu, L Xu, G He, W Yu, Y Li. Beyond Alignment: Blind Video Face Restoration via Parsing-Guided Temporal-Coherent Transformer. Proceedings of the Thirty-Third International Joint Conference on Artificial Intelligence IJCAI-24