基于改进扩散模型结合条件控制的文本图像生成算法
杜洪波1 薛皓元1 朱立军2
1.沈阳工业大学 理学院
2.北方民族大学 信息与计算科学学院
第一作者简介:杜洪波,沈阳工业大学理学院副教授,主要从事数据挖掘的研究。
通信作者简介:薛皓元,沈阳工业大学理学院硕士生,主要从事计算机视觉和深度学习的研究。
DOI:10.13878/j.cnki.jnuist.20240619003
摘要:针对现有的文本图像生成方法存在图像保真度低、图像生成操作难度大、仅适用于特定的任务场景等问题,提出一种新型的基于扩散模型的文本生成图像方法。该方法将扩散模型作为主要网络,设计一种新型结构的残差块,有效提升模型生成性能;通过添加注意力模块CBAM来改进噪声估计网络,增强了模型对图像关键信息的提取能力,进一步提高了生成图像质量;结合条件控制网络,有效地实现了特定姿势的文本图像生成。与KNN-Diffusion、CogView2、textStyleGAN、SimpleDiffusion等方法在数据集CelebA-HQ上做了定性、定量分析以及消融实验,根据评价指标以及生成结果显示,本文方法能够有效提高文本生成图像的质量,FID平均下降36.4%,Inception Score(IS)和结构相似性指数(SSIM)分别平均提高11.4%和3.9%,验证了本文算法的有效性。同时,本文模型结合了ControlNet网络,实现了定向动作的文本图像生成。
关键词:扩散模型;文本图像生成;条件控制;残差块;CBAM
文章亮点
针对现有文本图像生成方法存在图像保真度低、操作难度大、仅适用于特定场景的问题,本文提出一种基于改进扩散模型结合条件控制的文本图像生成新算法。
该算法亮点突出,创新点明确。一是设计新型残差块结构,通过加入批量归一化层,解决深层训练中梯度消失/爆炸问题,同时加速模型收敛、增强泛化能力,让模型在深层训练时仍能保持高生成性能;二是改进噪声估计网络,引入轻量化注意力模块,兼顾通道与空间注意力,强化对图像关键信息的提取,有效提升生成图像的细节与光影效果;三是结合ControlNet条件控制网络,通过零卷积层连接预训练模型与可训练副本,实现特定姿势、空间布局的定向文本图像生成,避免多次循环试错。
文章主要图表
图1 扩散模型文本生成图像原理
图6 CBAM结构
图7 改进后的噪声估计网络结构
图9 改进后模型流程
图13 改进残差模块模型与原模型对比
全文
(左右翻阅查看全文)
文章源自:杜洪波,薛皓元,朱立军.基于改进扩散模型结合条件控制的文本图像生成算法[J].南京信息工程大学学报,2025,17(5):611-623
DU Hongbo,XUE Haoyuan,ZHU Lijun. Text-to-image generation based on improved diffusion model combined with conditional control[J]. Journal of Nanjing University of Information Science & Technology, 2025,17(5):611-623
期刊简介
Introduction
《南京信息工程大学学报》创刊于2009年,双月刊,现任主编为潘成胜教授。学报主要围绕“信息工科”和“生态环境”领域设置六个栏目:计算机科学与工程,电子、通信与自动化,信息科学与系统科学,人工智能与智慧化,地理、遥感与测绘工程,资源、环境科学与工程。学报已被《中文核心期刊要目总览》《中国科技论文统计源》《剑桥科学文摘(ProQuest)》《化学文摘(CA)》《史蒂芬斯全文数据库(EBSCOhost)》以及《日本科学技术振兴机构数据库(JST)》等国内外数据库收录。
本刊影响力指数(CI)连年位居知网Q1区,多次被评为全国、江苏省优秀期刊,2021—2024年入选《科技期刊世界影响力指数(WJCI)报告》,2018—2024年荣获“中国高校科技期刊建设示范案例库优秀科技期刊”,2021—2023年荣获“江苏省高校优秀期刊”等。
联系方式
Contact
地址:南京市宁六路219号《南京信息工程大学学报》编辑部(210044)
网址:http://nxdxb.cnjournals.org
邮箱:nxdxb@nuist.edu.cn
电话:025-58731025
关注我们
Follow us
学报公众号 学报官网
更多动态,请关注“南京信息工程大学学报”。

