大数跨境
0
0

人工智能专场 | 连宙辉:基于深度学习的字体生成技术及其在古代书法名家字体制作中的应用

人工智能专场 | 连宙辉:基于深度学习的字体生成技术及其在古代书法名家字体制作中的应用 CHCD数字遗产专委会
2025-12-19
1

2024年7月16日至19日,以“重塑:数字遗产新质生产力”为主题的2024文化遗产保护数字化国际论坛在北京中关村国际创新中心成功举办,大会开设了四个联办国家专场,以及历史城镇、人工智能、数字石窟、考古遗址、三山五园等多个学术专场,带来了近百篇精彩的学术报告

7月17日,在人工智能专场上,北京大学王选计算机研究所副教授、博士生导师连宙辉作题为《基于深度学习的字体生成技术及其在古代书法名家字体制作中的应用》的报告。

连宙辉

北京大学王选计算机研究所副教授

博士生导师


各位老师、各位嘉宾,大家上午好!很高兴今天有机会在这里与大家分享我们的一些工作。我汇报的题目是《基于深度学习的字体生成技术及其在古代书法名家字体制作中的应用》。由于时间有限,我将重点介绍我们的研究成果。

首先,谈谈我们为什么要研究字体生成

文字无处不在,字体字形广泛应用于报刊杂志、社交媒体、广告等各类场景。字形的表现形式多样,可以是图片、矢量图形、视频或三维形式,因此制作过程较为复杂。传统的计算机字体是如何生成的?通常需要经过大量培训,学习如何进行字体的规范化设计。我们需要逐个制作字形,或者将每个字书写出来、扫描、入库。对于英文而言,这并不困难,因为字母数量少,形状也相对简单。但中文则不同:最新的国家标准包含8万多个汉字,即使只制作其中一小部分,工作量也已十分庞大。



汉字形态复杂,这里随意选取几个笔画较多的字为例。因此,制作一套中文字库非常耗时费力,并且需要保持风格一致性。通常,一个五六人的字体设计团队制作一套包含6000多字的字体,需要花费一年时间和数百万元。若要制作涵盖8万多字的全套字体,按照传统工艺,成本更是高昂。因此,我们希望通过开发一套AI系统来提升字体制作的效率。例如,针对已有的“徐静蕾字体”,我们可以自动生成具有她个人风格的其余汉字。这项技术同样可推广至书法家字体生成、特效字生成等领域,我们在这方面已开展了大量工作。

我们思考:能否让书法家仅书写100个字——尤其是古代书法家流传下来的字迹有限,且我们无法请他们复生补写未留下的字——从其少量字迹中学习风格特征,并可对其字体进行编辑,调整风格属性,从而自动生成一系列字体。这正是我们研究的核心内容。



我们采用的研究手段是基于深度学习的生成模型。随着生成对抗网络等方法的进步,人工智能生成内容(AIGC)研究日益活跃。我们可以从输入生成所需的输出,如图像、三维模型、视频。我们同样利用这类生成模型进行字体生成研究。

但字形生成有何特殊性?现有的图像生成模型在此领域虽能取得一定效果,但仍存在几个问题:一是分辨率较低;二是对于汉字这种笔画繁多、结构精细的文字,每一笔画的轻微偏差都可能改变字义,因此生成结构复杂且精确的汉字十分困难。商业字体通常使用矢量字形,那么如何生成矢量字形?又如何实现风格迁移?这仍是尚未完全解决的问题。

如果使用现有的AIGC大模型尝试字形生成,尤其是汉字生成,仍然面临较大挑战:很难在指定风格和内容的前提下实现高质量生成,这非常困难。我们团队来自北京大学王选计算机研究所,长期专注于字体生成研究,过去十年进行了大量探索。我花一分钟简要回顾我们十年来的工作历程,这也见证了人工智能生成技术的发展进程。



十年前,我们开展了风格插值研究,实现两种风格之间的渐变过渡;采用笔画拼接复用模式进行字形生成;开发了免费网站供字体爱好者生成个人字体;并进行了字形美观度评价研究。2016年,我们首次使用神经网络生成中文字体,实现了大规模手写体中文字库的生成。2017年,我们引入生成对抗网络,进一步提升了生成效果。我们还实现了风格渐变、艺术特效字与字体风格的同步迁移。随着生成方法的演进,我们加入了字形先验知识,进一步改善了生成质量。此外,我们还探索了属性控制生成、字形排版等方向。

近年来,我们致力于生成更高质量的字体,例如通过图像生成技术实现更高分辨率和更快的生成速度。这是我们今年刚刚发表的一项工作,利用时域差分方法提升了字形生成的效果与效率。以上是我们十年的主要工作。



然而,生成矢量字体仍然非常困难。为什么需要矢量字体?因为图像生成的字形无法无限放大,放大会产生噪点。而矢量字体可以无损缩放,局部效果不随分辨率改变,在实际应用中更为广泛,且存储空间远小于图像——一张1024×1024的图片约占1MB空间,而一套完整的矢量字库可能仅需2MB。难点在于:同一轮廓,不同设计师会用不同的设计指令来表示,这增加了生成的难度。

解决这个问题有哪些方法?一种直接生成矢量字形;另一种生成高分辨率字形图像,再用最优方法进行矢量化。今天,我重点介绍我们最新的工作,即采用第二种策略:生成极高分辨率、高质量的字形图像,进而转换为高质量的矢量字形。这是我们即将发表的研究。

我们生成1024×1024的字形图像,并进行矢量化处理,用极少的控制点即可精确表示轮廓。它能完成哪些任务?例如字体生成:输入黑色部分的几个字,红色部分为自动生成——系统学习其风格后,自动生成该书法家未写过的字,无论在质量还是风格一致性上都表现优异。此外,还可实现高分辨率缩放。同样的模型也能用于艺术特效字生成:输入设计师创作的艺术效果字形,系统可学习其风格并进行生成。我们采用了误差扩散模型,通常采样需要几十甚至上百步,而我们实现了一步采样的方法,将生成速度提升了数十倍乃至上百倍。

这是我们模型的示意图。简而言之,我们实现了以下几点创新:第一,在误差扩散模型中引入了汉字知识(如部件组成、笔画结构),将这些信息有效注入模型;第二,引入了风格引导的超分辨率模型,确保超分辨率过程不仅提高分辨率,还能保持风格一致;第三,采用教师-学生模型提升采样速度,实现一步采样即可生成高质量字形。



以下展示我们的实验结果。量化实验结果显示效果良好。实际测试对比表明,即使书法家或设计师仅输入一张字形图像,我们的系统也能在一定程度上学习其风格;输入十张或百张图像效果更佳,而使用775张图像时效果最优。我们提供了多种情况对比,结果显示我们的方法均优于其他方法。

我们的一步采样效果可媲美十步采样,在保持质量的同时大幅提升速度。细节放大显示,笔画的尖角、运笔细节等均保留完好,传统方法难以达到如此精细程度。在矢量字形生成中,我们使用的控制点也非常少。我们还进行了图灵测试:将生成的字形与设计师书写的字形混合,让用户辨别,达到了50%的以假乱真效果。同时,我们邀请专业字体设计师进行盲测,将生成字形与其他方法生成的字形及设计师原字混合,请其甄别。实验发现,我们的效果已接近专业设计师水平——在十种字体测试中,我们的生成结果胜出四次,设计师原字胜出六次,且得分相当。

更多结果显示,艺术特效字的生成效果也令人满意。



最后,我展示一些在书法字体设计中的应用实例。我们开发的网站已免费对外开放,可供访问(www.flexifont.com)。我们请同事书写了一百个字,进行生成测试:若仅基于这一百字,其余用宋体渲染,生成的字库能使整篇文章均以他的风格呈现,整体风格协调统一

曾有朱熹后人联系我,希望为朱熹制作一套字体。我们基于其《千字文》字迹,生成了一套包含6763个字的字体,供朱氏家族免费使用,并收到了他们颁发的奖牌。

我们还进行了更多实验:例如基于赵孟頫的书法字迹,提取已写字形进行生成,生成效果与原文对比可见(以《出师表》为例),许多风格特征得到了良好保留。此外,还生成了褚遂良、黄庭坚、苏轼、王献之等古代书法家不同字体的《出师表》效果,以及《石门颂》隶书风格等,均展现出不错的风格还原度。



然而,复杂字形,尤其是中文生成,仍然颇具挑战。直接对矢量字形进行风格迁移、结合大模型实现可控生成,将是我们下一步的研究方向。

由于时间关系,我的汇报到此结束。谢谢大家!


图片

中国古迹遗址保护协会数字遗产专委会 | 秘书处

ICOMOS-CHINA Scientific Committee of Cultural Heritage Conservation by Digitalization | Secretariat

李浚 杜寇 习熠飞

邮箱:lijun@thid.cn;dukou@thid.cn;xiyifei@thid.cn

电话:15010082521 18074104213

图片


【声明】内容源于网络
0
0
CHCD数字遗产专委会
中国古迹遗址保护协会数字遗产专业委员会(CHCD)是由中国古迹遗址保护协会(ICOMOS China)下设的针对文化遗产保护与数字化领域进行研究交流的学术组织
内容 349
粉丝 0
CHCD数字遗产专委会 中国古迹遗址保护协会数字遗产专业委员会(CHCD)是由中国古迹遗址保护协会(ICOMOS China)下设的针对文化遗产保护与数字化领域进行研究交流的学术组织
总阅读12
粉丝0
内容349