腾讯混元团队投稿 | 量子位 公众号 QbitAI
当行业追逐模型规模时,研究者提出新思路:重新设计Token构建方式。
仅3B参数的HiVG框架,在SVG生成任务中多项指标超越GPT-5.2、Claude-4.5-Sonnet等闭源模型。
核心突破:HiVG作为面向SVG生成的层次化分词框架,将Token数量减少63.8%,以3B参数规模超越所有开源SVG模型及GPT-5.2等闭源模型。
SVG生成为何长期受限?
矢量图形SVG兼具无限缩放、文件体积小、编辑友好等优势。当前LLM将其视为“代码”生成时,存在关键瓶颈:传统BPE分词器将坐标拆解为独立Token(如"100"→"1""0""0"),导致空间关系断裂。
由此引发双重问题:
1. 坐标幻觉(Coordinate Hallucination):几何结构失真
2. Token冗余:简单图标膨胀至数百Token,严重降低效率
自然语言Token信息密度高(1-2个Token承载完整语义),而SVG坐标Token信息密度极低——这种表征错位才是性能瓶颈根源。
层次化分词:重构Token语义价值
从字符碎片到几何单元
HiVG的核心突破在于:将SVG识别为可执行几何程序,分词器需符合其本质属性。

△ 三种Tokenizer分词策略对比
同一SVG代码示例:
(a)通用分词器:拆分为10个碎片Token
(b)现有SVG分词器:7个Token(坐标仍独立)
(c)HiVG:将绘图命令与坐标组合为片段词元,仅需2个Token(压缩率达80%)
双层架构实现高效压缩

第一层:原子词元(Atomic Tokens)
将SVG分解为四类基础单元,关键创新采用相对坐标表示法:路径首命令用绝对坐标,后续点基于前一点偏移。此设计既降低平移方差,又提升几何模式复用率。

△ HiVG框架总览
第二层:路径片段词元(Segment Tokens)
将“绘图命令+坐标参数”整合为不可分割的几何片段,通过迭代合并高频共现的片段:

关键约束:仅在段边界合并,且结果必为有效可执行的几何单元。实测发现椭圆弧、贝塞尔曲线等高复用几何原语(出现频次1.5-2万次)。

△ 学习到的路径片段词元示例
效果:序列长度压缩63.8%(2.76×效率提升)。
坐标空间感知初始化
为新Token设计层次化均值-噪声(HMN)初始化策略:

△ HMN初始化示意图
新Token的嵌入表达包含四要素:
• 全局均值与噪声(保持分布对齐)
• 语义描述编码(利用文本先验)
• 归一化坐标映射(通过高斯-多项式基函数)
确保相似坐标在表示空间邻近,赋予初始空间感知能力。
3B参数性能碾压大模型
权威指标全面领先

Image-to-SVG任务中:
SSIM 0.896(vs. Gemini-2.5-pro 0.790)
LPIPS 0.114(vs. GPT-5.2 0.205)
CLIP-S得分0.957显著领先。
核心价值:3B参数模型性能超越8B级开源模型(OmniSVG-8B/InternSVG-8B)及GPT-5.2等闭源模型。
视觉质量实测验证

△ Image-to-SVG生成对比

△ HiVG生成效果(含复杂图标)

△ Text-to-SVG任务表现
在Mastercard标志、带文字日历等复杂场景中,HiVG生成结果保持:
• 结构完整性
• 文字精准渲染
• 色彩高度还原
尤其在字体(glyph)生成方面实现行业突破。
设计师实战评价

△ 8位专业设计师盲测结果
• 可用性评分4.06/5分(行业第一)
• 头对头胜率58.9%-70.8%
• Adobe Illustrator实测:在语义分层/可编辑性/冗余控制/可用性四大维度均获最高分。
Token效率革命

△ 训练效率对比
63.8%的序列压缩率带来:
• 2.7倍训练速度提升
• 推理延迟显著降低
• 计算资源消耗减少60%以上。
突破性行业价值
HiVG揭示关键启示:在结构化生成任务中,Token设计的重要性被严重低估。其3B参数超越更大模型的现象证明:当数据具备固有结构时,优化表征与结构的匹配度,比单纯增加参数更高效。
该思路可拓展至:
• CAD设计生成
• 3D Mesh构建
• 机器人动作序列建模
等领域。
实际应用层面,HiVG生成的SVG具有即开即用级可编辑性,可直接融入设计师工作流:通过简单文字描述获取结构清晰、无需修饰的矢量图标。
https://arxiv.org/pdf/2604.05072
https://hy-hivg.github.io/
https://github.com/ximinng/HiVG

