睡眠时间计算
推理效率与成本的双赢之道
在当今人工智能飞速发展的时代,如何进一步提升人工智能系统的能力,成为了众多研究人员和机构关注的焦点。近日,AI 初创公司 Letta 和 UC 伯克利的研究人员提出的一种全新的扩展人工智能能力的方式 —— 睡眠时间计算(Sleep-time Compute),引发了广泛的关注和讨论。
一直以来,我们所熟知的 AI 系统大多是在用户触发交互时才进行推理计算。例如,当我们向智能客服提问、让语言模型写文章时,模型才开始运作。这种模式下,模型的绝大部分时间都处于闲置状态,资源并未得到充分利用。而「睡眠时间计算」的提出,打破了这一传统模式,为 AI 系统的发展带来了新的思路。
睡眠时间计算的核心理念十分独特。它认为智能体即便在「睡眠」,也就是用户未提出查询的闲置时段,也不应停止运行。而是要利用这些非交互期,对信息进行重组,并提前完成推理。在实际应用中,许多智能体都运行于存在持久化上下文的环境中。比如代码智能体,它可以在编程请求到来前预先研习代码库,对代码库的结构和逻辑有更深入的理解;对话智能体则可反思用户过往的交流记录,在交互前重新整理信息,从而在用户再次提问时能够更准确、快速地做出回答。
在睡眠时段执行推理的过程,是将「原始上下文」转化为「学习到的上下文」的过程。拥有预处理能力的智能体,相较于仅拥有原始上下文的智能体,在实际应答时能够大大减少即时推理计算的负担。因为它们已经在空闲时间进行了思考,做好了充分的准备。
回顾过去一年,「推理模型」逐渐崛起。像 OpenAI 的 o1、DeepSeek 的 R1 和 Anthropic 的 Claude 3.7 等最新模型,在回答问题之前会进行「思考」,输出一段详细的推理过程,而不是即时给出回复。这种延迟输出结构在数学、编程等特定应用领域中,显著提升了模型的智能表现。这种被称为「测试时扩展」的策略,已经被广泛证实是推动基于大型语言模型(LLM)的 AI 系统迈向更高智能层级的有效路径。但研究人员认为,这仅仅是冰山一角,AI 系统中还存在着尚未被充分释放的潜力。
于是,他们提出了「睡眠时间」的概念,即 AI 系统在不与用户交互的漫长空闲期间,也能深入处理和组织信息。「睡眠时间计算」为具备状态性的 AI 系统提供了一个全新的扩展路径。通过在系统本应用于空闲的时段启用深层思维,我们能够突破仅靠交互时计算资源所能实现的能力上限,拓展模型的理解能力与推理方式。
在标准的测试时间计算应用范式中,用户向 LLM 输入提示 p,LLM 应用测试时间计算来回答问题。而提示 p 通常可分解为已存在的上下文 c 和用户查询 q。当 LLM 没有及时响应用户时,它虽能访问现有上下文 c,但往往处于闲置状态,错过了离线思考 c 的机会,这就是睡眠时间计算所针对的情况。
在睡眠时间计算中,仅基于上下文 c,使用 LLM 推理可能的问题并推理上下文,最终产生更新的重新表示的上下文 c ′。在测试时,提供新的上下文 c ′ 代替 c 来生成对用户查询的最终答案。由于关于 c 的大部分推理已经提前完成,就可以使用小得多的测试时间预算,并且 c ′ 可以在关于相同上下文的不同查询之间共享,从而节省总体成本。
为了探究睡眠时计算的优势,研究人员进行了一系列实验。实验结果表明,睡眠时间计算能够改变测试时计算与准确率之间的帕累托边界,添加睡眠时间计算可以超越帕累托计算 - 准确率曲线。扩展睡眠时间计算会使帕累托曲线外移,在相似的测试时间预算下,性能提升最高可达 18%。在每个上下文有多个查询的设置中,应用睡眠时间计算使每个查询的平均成本降低多达 2.5 倍。而且,当问题能够通过上下文预测时,睡眠时计算最能发挥其优势,随着问题从上下文中变得更加可预测,睡眠时间计算和标准测试时间计算之间的准确度差距不断扩大。
「睡眠时间计算」的提出,为人工智能的发展开辟了新的道路。它不仅提高了大型语言模型的推理效率,降低了推理成本,同时保持或提升了准确性,让 AI 系统能够更高效地利用资源,发挥出更大的潜力。相信随着这一概念的不断发展和完善,未来的 AI 系统将在更多领域展现出更加卓越的性能,为我们的生活和工作带来更多的便利和创新。
/END/

