大数跨境
0
0

5分钟AI小课堂 | 如何加速大模型推理速度?

5分钟AI小课堂 | 如何加速大模型推理速度? 英特尔开发人员专区
2025-10-31
6


在全新的“5分钟AI小课堂”系列中,我们将为大家介绍英特尔在AI技术方面的一些最新进展。


你是否曾和AI聊天机器人聊得正起劲,它却突然“陷入沉默”,回复总要卡顿一两秒?这些机器人是由大模型(LLM)驱动的,而目前大模型的核心挑战之一,当属推理速度慢。推理,指的是大模型收到问题后生成答案的过程,因为计算量过大、显存和带宽瓶颈、功耗和成本限制等原因,用户体验常常是AI应用“反应迟缓”。


推测解码(Speculative Decoding)是一种通过多词元预测,从而加速文本生成的方法,为LLM的提速提供了一种解决方案。想象一下,大模型像一位谨慎的作家,每写一个字都要深思熟虑,而“推测解码”则引入了一位聪明的“写作助理”(一个小模型)。助理负责快速预测和草拟多个词元,然后由大模型(主作家)进行审核并采纳,效率自然大大提升。


但传统的推测解码有个严格的门槛:助理和主作家必须使用同一套“词汇表”(即模型词汇),这让许多没有“亲兄弟”小模型的大模型无法享受加速福利。因此,这种技术在应用上不够灵活,难以被广泛采用。


最近,英特尔研究院与开源社区Hugging Face联手,发布了多项打破门槛,提升推理效率的创新方法,目标直指——让大模型提速!



1. 动态推测解码:基础提速,智能调控


链接:https://huggingface.co/blog/dynamic_speculation_lookahead


英特尔研究院和Hugging Face联合开发的“动态推测解码”新技术,是第一重加速引擎,已作为默认设置集成到Hugging Face Transformers 4.45.0版本中。它的聪明之处在于能动态调整“助理”草拟词句的数量,在不同任务下实现最优效率,最高可提升2.7倍速度,让响应更加流畅。


2. 通用辅助生成UAG:用任意小模型实现更快解码


链接:https://huggingface.co/blog/universal_assisted_generation


许多大语言模型缺乏可用于辅助生成的小模型。为此,英特尔研究院与Hugging Face合作开发了通用辅助生成(UAG)技术,该方法将辅助生成的范围扩展至任意模型家族的小型语言模型。该技术可实现解码器或混合专家模型的推理速度提升1.5至2.0倍,且几乎没有额外开销。


3. UAG-TLI:通用辅助生成技术的增强版


链接:https://huggingface.co/blog/jmamou/uag-tli


UAG-TLI技术,作为UAG的扩展,支持概率编码并兼容任意小型语言模型,可提供更强的加速效果。在前沿大模型上的实验表明,其加速效果最高可达2.5倍。UAG-TLI技术现已集成至Hugging Face Transformers 4.50.0版本的辅助生成(AG)功能中,让更强大的通用辅助生成技术更易于应用。


4. 突破“词汇表”限制:任意小模型可加速任意大模型


链接:https://newsroom.intel.com/artificial-intelligence/intel-weizmann-institute-speed-ai-with-speculative-decoding-advance


英特尔研究院和魏茨曼研究所(Weizmann Institute)研发的全新解码方法,使得任意小模型能加速任意大模型,无论二者之间的词汇表差异如何。这项创新为灵活部署LLM开辟了道路,开发者可将任意小型模型与大模型配对,从而跨平台优化推理速度与成本。在保证输出质量的前提下,该技术可实现最高2.8倍的推理速度提升,相关算法已集成至Hugging Face Transformers开源库。


这些创新意味着什么?


更高的灵活性

开发者可以像搭积木一样自由组合模型,不再受限于特定模型系列,优化部署策略。

更快的用户体验

AI应用的响应时间将大幅缩短,交互更加流畅自然。

更低的成本

提速意味着完成同样任务所需的计算资源和时间更少,直接降低了运营成本。


这些创新如何影响未来?


这些技术都已经开源,并集成在Hugging Face平台上,对开发者开放。随着这些技术的广泛应用,AI回复我们的速度将得到提升。无论是智能客服、内容创作还是编程辅助,延迟将不再是困扰。这不仅是技术的进步,更是人机交互体验的改进。


你期待哪个AI应用的

响应速度得到提升?

欢迎在评论区分享你的想法!



©英特尔公司,英特尔、英特尔logo及其它英特尔标识,是英特尔公司或其分支机构的商标。文中涉及的其它名称及品牌属于各自所有者资产。


 END 




Intel

英特尔开发人员专区

是一个全球性网站,旨在为软件社区

提供见解、信息、专业知识和工具,以帮助在

英特尔软件环境中工作的开发人员开拓创新,

取得成功

图片



【声明】内容源于网络
0
0
英特尔开发人员专区
1234
内容 1656
粉丝 0
英特尔开发人员专区 1234
总阅读6.1k
粉丝0
内容1.7k