睡眠时间计算，推理效率与成本的双赢之道- 大数跨境

首页

睡眠时间计算，推理效率与成本的双赢之道

元龙数字智能科技

2025-04-23

睡眠时间计算

推理效率与成本的双赢之道

在当今人工智能飞速发展的时代，如何进一步提升人工智能系统的能力，成为了众多研究人员和机构关注的焦点。近日，AI 初创公司 Letta 和 UC 伯克利的研究人员提出的一种全新的扩展人工智能能力的方式 —— 睡眠时间计算（Sleep-time Compute），引发了广泛的关注和讨论。

一直以来，我们所熟知的 AI 系统大多是在用户触发交互时才进行推理计算。例如，当我们向智能客服提问、让语言模型写文章时，模型才开始运作。这种模式下，模型的绝大部分时间都处于闲置状态，资源并未得到充分利用。而「睡眠时间计算」的提出，打破了这一传统模式，为 AI 系统的发展带来了新的思路。

睡眠时间计算的核心理念十分独特。它认为智能体即便在「睡眠」，也就是用户未提出查询的闲置时段，也不应停止运行。而是要利用这些非交互期，对信息进行重组，并提前完成推理。在实际应用中，许多智能体都运行于存在持久化上下文的环境中。比如代码智能体，它可以在编程请求到来前预先研习代码库，对代码库的结构和逻辑有更深入的理解；对话智能体则可反思用户过往的交流记录，在交互前重新整理信息，从而在用户再次提问时能够更准确、快速地做出回答。

在睡眠时段执行推理的过程，是将「原始上下文」转化为「学习到的上下文」的过程。拥有预处理能力的智能体，相较于仅拥有原始上下文的智能体，在实际应答时能够大大减少即时推理计算的负担。因为它们已经在空闲时间进行了思考，做好了充分的准备。

回顾过去一年，「推理模型」逐渐崛起。像 OpenAI 的 o1、DeepSeek 的 R1 和 Anthropic 的 Claude 3.7 等最新模型，在回答问题之前会进行「思考」，输出一段详细的推理过程，而不是即时给出回复。这种延迟输出结构在数学、编程等特定应用领域中，显著提升了模型的智能表现。这种被称为「测试时扩展」的策略，已经被广泛证实是推动基于大型语言模型（LLM）的 AI 系统迈向更高智能层级的有效路径。但研究人员认为，这仅仅是冰山一角，AI 系统中还存在着尚未被充分释放的潜力。

于是，他们提出了「睡眠时间」的概念，即 AI 系统在不与用户交互的漫长空闲期间，也能深入处理和组织信息。「睡眠时间计算」为具备状态性的 AI 系统提供了一个全新的扩展路径。通过在系统本应用于空闲的时段启用深层思维，我们能够突破仅靠交互时计算资源所能实现的能力上限，拓展模型的理解能力与推理方式。

在标准的测试时间计算应用范式中，用户向 LLM 输入提示 p，LLM 应用测试时间计算来回答问题。而提示 p 通常可分解为已存在的上下文 c 和用户查询 q。当 LLM 没有及时响应用户时，它虽能访问现有上下文 c，但往往处于闲置状态，错过了离线思考 c 的机会，这就是睡眠时间计算所针对的情况。

在睡眠时间计算中，仅基于上下文 c，使用 LLM 推理可能的问题并推理上下文，最终产生更新的重新表示的上下文 c ′。在测试时，提供新的上下文 c ′ 代替 c 来生成对用户查询的最终答案。由于关于 c 的大部分推理已经提前完成，就可以使用小得多的测试时间预算，并且 c ′ 可以在关于相同上下文的不同查询之间共享，从而节省总体成本。

为了探究睡眠时计算的优势，研究人员进行了一系列实验。实验结果表明，睡眠时间计算能够改变测试时计算与准确率之间的帕累托边界，添加睡眠时间计算可以超越帕累托计算 - 准确率曲线。扩展睡眠时间计算会使帕累托曲线外移，在相似的测试时间预算下，性能提升最高可达 18%。在每个上下文有多个查询的设置中，应用睡眠时间计算使每个查询的平均成本降低多达 2.5 倍。而且，当问题能够通过上下文预测时，睡眠时计算最能发挥其优势，随着问题从上下文中变得更加可预测，睡眠时间计算和标准测试时间计算之间的准确度差距不断扩大。

「睡眠时间计算」的提出，为人工智能的发展开辟了新的道路。它不仅提高了大型语言模型的推理效率，降低了推理成本，同时保持或提升了准确性，让 AI 系统能够更高效地利用资源，发挥出更大的潜力。相信随着这一概念的不断发展和完善，未来的 AI 系统将在更多领域展现出更加卓越的性能，为我们的生活和工作带来更多的便利和创新。

/END/

【声明】内容源于网络

元龙数字智能科技

永做第一使命第一向善第一

内容 901

粉丝 0

元龙数字智能科技永做第一使命第一向善第一

总阅读2.0k

粉丝0

内容901