大数跨境

复旦大学 × 阶跃星辰联合开源图像编辑模型 PixelSmile:面向细粒度、连续可控人脸表情编辑的方法。

复旦大学 × 阶跃星辰联合开源图像编辑模型 PixelSmile:面向细粒度、连续可控人脸表情编辑的方法。 AIGC Studio
2026-04-01
5
导读:复旦大学 × 阶跃星辰联合提出图像编辑模型 PixelSmile 已经全面开源,论文、代码、模型、Benchmark 与 Demo 均已公开。
点击下方名片关注AIGC Studio公众号获取最新AI前沿应用/AIGC实践教程
扫描下方二维码,加入AIGC Studio知识星球可以获得最新AI前沿应用/AIGC实践教程/大厂面试经验/算法刷题IT各学科入门到精通学习资料学习/科研/工作/副业,强烈推荐!

近年来,扩散式图像编辑模型和身份一致性生成方法已经显著提升了自然语言驱动的人像编辑能力,但细粒度表情编辑仍然没有被真正解决。现有模型通常能够生成差异明显的粗粒度表情,但在惊讶与恐惧、愤怒与厌恶这类语义相近、边界重叠的表情对上仍然表现不稳定。

这一问题的核心在于表情并不是严格离散的类别,而是存在天然重叠的连续情绪流形。若训练和评测仍主要依赖离散标签,模型就很容易学习到纠缠的表情表示,进一步表现为结构性混淆、强度控制不稳定,以及编辑过程中的身份漂移。

围绕这一问题,PixelSmile 以开源形式给出了一套由方法、数据集和评测基准组成的方案,目标是系统性地推进细粒度、连续可控且身份一致的人脸表情编辑。

PixelSmile Teaser

这张总览图概括了 PixelSmile 的主要能力边界:一是跨 12 类表情的编辑能力,二是连续强度控制,三是表情混合。对于技术解读来说,它也对应了本文后面将展开的三条主线:问题定义、方法设计,以及数据与评测体系。

unsetunset问题定义与研究动机unsetunset

对于表情编辑任务,关键困难在于表情语义并非离散分布,而是连续变化的语义空间。语义相邻的情绪天然存在重叠区域,因此边界并不像标准分类问题那样明确。

这一结构直接带来两个后果。其一,模型容易在相近情绪之间产生结构性混淆。其二,当模型试图增强目标表情时,往往会通过修改更多面部属性来实现视觉变化,从而破坏身份一致性。

因此,细粒度表情编辑的核心并不是“能否产生表情变化”,而是以下几个目标能否同时满足:

  • 目标表情是否准确
  • 相近情绪是否真正解耦
  • 表情强度能否连续控制
  • 编辑后身份是否仍然稳定

从这个角度看,现有方法大多只覆盖其中一部分目标,而缺乏一个同时面向结构性混淆、连续控制与身份保持的统一建模框架。

Observation of Expression Semantic Overlap

从图中可以更直观地看到论文的核心判断:表情混淆并不只是预测误差,而是源于表情语义本身存在连续重叠。因此,后续方法设计不能仅依赖更强的生成能力,而需要同时引入新的监督范式、训练机制和评测协议。

unsetunset工作概述unsetunset

围绕上述问题,PixelSmile 提供了一个由方法、数据集和评测基准共同组成的完整研究框架。方法层面,PixelSmile 是一个面向细粒度表情编辑的扩散式编辑框架,目标是在保持身份一致性的同时提升表情解耦与连续控制能力。

数据层面,FFE 覆盖真人与动漫两个域,共约 60000 张图像,并围绕 same-identity 的表情变化构建监督信号。与传统 one-hot 标签不同,FFE 进一步提供连续情感标注,使模型能够学习表情空间中的细粒度边界。

评测层面,FFE-Bench 从结构性混淆、编辑准确性、线性可控性,以及表情编辑与身份保持之间的平衡几个维度,对模型进行系统评价。三者合在一起,构成了本文工作的主要贡献。

unsetunsetFFE 数据集unsetunset

如果问题根源在于表情语义天然纠缠,那么仅靠模型结构改动通常是不够的,监督方式本身也需要同步改变。

FFE 数据集的一个核心出发点,就是不再用 one-hot 标签把表情强行压成互斥类别。相反,该数据集使用连续情感标注来描述每一张图像在 12 类目标表情上的强度分布,从而更真实地刻画表情之间的重叠关系。

从构建流程上看,FFE 采用了 collect-compose-generate-annotate 的四阶段流程:先建立高质量身份集合,再构造结构化表情 prompt,随后生成 same-identity 的多表情结果,最后通过连续分数完成标注与过滤。这样做使得研究者能够在相同身份下观察更丰富的表情变化,也能够更系统地分析模型在细粒度控制上的真实能力。

这一点对于表情编辑尤其关键。很多视觉上“有变化”的结果,并不意味着模型真正学习到了表情空间的连续结构;FFE 所补足的,正是这一层监督缺口。

unsetunsetFFE-Benchunsetunset

细粒度表情编辑长期缺少统一评测协议。传统指标更擅长衡量整体视觉质量,但对结构性混淆、连续控制以及身份保持等核心问题,解释力有限。

FFE-Bench 针对这个问题设计了四类核心指标:

  • mSCR:衡量结构性混淆,关注相近表情之间是否被混成一类
  • HES:衡量表情编辑与身份保持之间的综合平衡
  • CLS:衡量连续控制是否线性、稳定、可预测
  • Acc:衡量目标表情是否被正确编辑出来

这组指标对应的目标非常明确:不仅要衡量结果是否可用,还要判断模型是否真正学习到了细粒度表情编辑任务所要求的能力结构。

unsetunset方法概述unsetunset

PixelSmile 的方法可以概括为两条主线。

第一条主线是连续控制。本文不将表情编辑视为简单的类别切换,而是通过文本潜变量插值,在中性表情与目标表情之间建立连续控制路径,使模型能够在推理阶段平滑调节表情强度,且不依赖参考表情图。

第二条主线是表情解耦。针对惊讶/恐惧、愤怒/厌恶等天然相近的情绪对,PixelSmile 引入 fully symmetric joint training,使模型在训练阶段更明确地学习相邻情绪之间的边界。配合强度监督、对比学习和身份保持约束,模型同时优化表情分离、连续控制与身份稳定。

实现上,PixelSmile 建立在预训练 MMDiT 之上,并通过 LoRA 进行适配。这一设计使其既继承了现有扩散编辑模型的生成能力,又在表情语义层面加入了更针对任务本身的结构约束。

PixelSmile Framework

从框架图来看,推理阶段的关键在于文本潜变量插值,训练阶段的关键在于 fully symmetric joint training。前者决定了连续控制是否成立,后者决定了相近表情边界能否被稳定分离。

unsetunset定性结果分析unsetunset

定性比较主要覆盖两类基线:通用编辑模型和线性控制模型。

对于通用编辑模型,论文主要比较了 Nano Banana Pro、GPT-Image-1.5、Qwen-Image-Edit-2511、Seedream-4.5、LongCat-Image-Edit 和 FLUX.2 Klein。定性结果表明,这些模型往往在“表情强度”和“身份保持”之间存在明显偏置:部分方法身份保持较好但表达偏弱,部分方法能够生成更明显的表情变化,但会引入更明显的身份漂移。相比之下,PixelSmile 在表情清晰度与身份一致性之间取得了更好的平衡。

对于细粒度表情编辑而言,真正困难的并不是生成更强的表情,而是在表达增强的同时避免身份漂移。

General Editing Comparison

从图中可以看到,当目标表情增强时,PixelSmile 仍然能够保持更稳定的身份特征。

对于线性控制模型,论文主要比较了 ConceptSlider、AttributeControl、Kontinuous-Kontext 和 SliderEdit。整体上看,这些方法通常难以同时满足连续性与身份一致性:有些方法控制范围较窄,有些方法呈现出明显的跳变,还有些方法在增强表达时伴随较快的身份退化。相比之下,PixelSmile 在不同控制强度下保持了更稳定的单调响应。

Linear Control Results

从图中可以看到,PixelSmile 在 Happy 和 Surprised 这类代表性表达上都保持了较稳定的单调趋势,而在更困难的表达上也没有出现明显失控。

unsetunset定量实验结果unsetunset

实验部分同样将对比对象分为两类:通用编辑模型,以及强调连续属性控制的线性控制方法。

在通用编辑模型比较中,论文主要从编辑准确性、结构性混淆和身份保持三个角度进行评估。整体结果表明,PixelSmile 在基础表情上的编辑准确性处于最优水平,同时在结构性混淆指标上显著优于各类通用编辑模型。

具体来看,PixelSmile 在六类基础表情上的 Acc-6 达到 0.8627,超过 Nano Banana Pro 和 GPT-Image-1.5。在结构性混淆指标 mSCR 上,PixelSmile 达到 0.0550,同样显著优于包括 Nano Banana ProGPT-Image-1.5 在内的通用编辑模型。身份保持方面,论文并未简单将更高的 ID similarity 视为更优结果,而是强调更自然的身份区间与有效编辑幅度之间的平衡;从这个角度看,PixelSmile 的综合表现更稳定。

在线性控制方法比较中,论文主要考察连续控制是否稳定、是否线性,以及在控制过程中身份能否保持。整体结果表明,PixelSmile 在这些指标上均表现更优。

具体而言,零样本文本插值已经能够在 Qwen-Image-Edit-2511 上带来有竞争力的控制结果,而在引入对称联合训练之后,PixelSmile 进一步将 CLS-6CLS-12 和 HES 提升到该组实验中的最优水平。相比之下,现有控制基线要么控制范围有限,要么控制响应不稳定,要么在增强表达时伴随明显的身份退化。总体来看,PixelSmile 的优势并不是某一项局部指标,而是在细粒度表情解耦、连续控制和身份保持之间给出了更完整的平衡。

从这张量化图来看,更重要的不是某个单点的绝对值,而是整体轨迹是否合理。理想的表情编辑方法,不应通过几乎不改变表情来维持高身份相似度,也不应通过严重破坏身份来换取更强的表情幅度。PixelSmile 的优势在于对二者进行了更稳定的联合优化。

unsetunset动漫表情编辑unsetunset

除了真人场景,PixelSmile 也可以编辑动漫角色的表情。

这一点并不简单。真人与动漫在外观分布、纹理风格和面部细节表达上存在显著差异,而细粒度表情编辑本身又要求模型同时处理表情控制与身份保持。因此,能够在两个域上都得到可用结果,本身就说明方法具备更强的适应能力。

Additional Linear Editing Results

从结果可以看到,PixelSmile 在动漫域中同样支持连续表情编辑,这意味着该方法并不局限于单一的真实人像场景。

unsetunset表情混合unsetunset

除了对单一目标表情做连续控制之外,论文还进一步探究了 PixelSmile 是否天然支持两个表情之间的混合。

从结果来看,PixelSmile 确实可以在部分情绪对之间生成具有复合特征的表情结果。这说明模型学到的并不只是割裂的类别标签,而是一个更连续、具有一定可组合性的表情语义空间。

Expression Blend Results

这一现象从技术上也具有意义。它表明 PixelSmile 的能力并不只停留在离散表情切换,而是在一定程度上支持更自然的情绪过渡与复合表达。换句话说,表情混合并不是额外设计出来的功能,而更像是连续表情空间学习后自然出现的一种外延能力。

unsetunset项目资源unsetunset

,相关入口如下。

  • 项目页:https://ammmob.github.io/PixelSmile/
  • 论文:https://arxiv.org/abs/2603.25728
  • GitHub:https://github.com/Ammmob/PixelSmile
  • 模型:https://huggingface.co/PixelSmile/PixelSmile
  • Benchmark:https://huggingface.co/datasets/PixelSmile/FFE-Bench
  • Demo:https://huggingface.co/spaces/PixelSmile/PixelSmile-Demo

unsetunset结语unsetunset

如果将 PixelSmile 放在图像编辑的发展脉络中来看,它的意义并不只是提供了一个新的表情编辑模型,而是将细粒度表情编辑这一问题真正拆解开来讨论:表情语义是否连续,监督形式应如何设计,benchmark 应如何构建,以及控制能力应如何评价。

围绕这些问题,PixelSmile、FFE 和 FFE-Bench 给出了一套相对完整的开源答案。对于关注图像编辑、角色生成、人像控制和可控生成的研究者与开发者来说,这一方向具有持续跟进的价值。

欢迎大家访问项目页,阅读论文,体验 Demo,查看 GitHub,也欢迎把这项工作分享给更多关注 AIGC 图像编辑的朋友。

感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~

【声明】内容源于网络
0
0
AIGC Studio
一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术。这里不仅有简单易懂的AIGC理论实践和AI学习路线,还有大厂工作经历和体会分享。如果有幸能给你一些帮助就更好啦!
内容 1096
粉丝 0
AIGC Studio 一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术。这里不仅有简单易懂的AIGC理论实践和AI学习路线,还有大厂工作经历和体会分享。如果有幸能给你一些帮助就更好啦!
总阅读13.4k
粉丝0
内容1.1k