清华团队提出agent互联网框架；首个视频自训练方法；通过奖励梯度进行视频扩散对齐

首页

清华团队提出agent互联网框架；首个视频自训练方法；通过奖励梯度进行视频扩散对齐｜大模型周报

学术头条

2024-07-13

导读：本周值得关注的大模型 / AIGC 前沿研究

本周值得关注的大模型 / AIGC 前沿研究：

清华团队提出智能体互联网（IoA）框架
清华团队推出 LLM 增强实体链接方法 LLMAEL
Google DeepMind：用弱 LLM 评判强 LLM 的可扩展监督
Google DeepMind 推出开放视觉语言模型 PaliGemma
微软研究院推出可扩展的智能体框架 AgentInstruct
微软推出 MInference：将 LLM 处理时间缩短 90%
斯坦福、谷歌团队推出首个视频自训练方法 Video-STaR
英特尔：在 CPU 上优化大语言模型的推理性能
SEED-Story：利用大语言模型生成多模态长篇故事
通过奖励梯度进行视频扩散对齐

想要第一时间获取每日最新大模型热门论文？

扫描下方二维码，加入「大模型技术分享群」。

或点击“阅读原文”，获取「2024 必读大模型论文」合集（包括日报、周报、月报，持续更新中～）。

1.清华团队提出智能体互联网（IoA）框架

大语言模型（LLM）的快速发展为开发能力极强的自主智能体（agent）奠定了基础。然而，现有的多智能体框架由于依赖于在自身生态系统中定义的智能体，往往难以整合具备各种能力的第三方智能体，它们在模拟分布式环境方面也面临挑战，因为大多数框架仅限于单设备设置。此外，这些框架通常依赖于硬编码的通信管道，限制了它们对动态任务要求的适应性。

受互联网概念的启发，来自清华大学的研究团队及其合作者提出了智能体互联网（IoA），这是一个新颖的框架，通过为基于 LLM 的多智能体协作提供灵活、可扩展的平台来解决上述问题。

IoA 引入了一个智能体集成协议、一个类似即时通讯的架构设计以及一个智能体组队和对话流控制的动态机制。通过对通用助理任务、具身 AI 任务和检索增强生成基准的广泛实验，他们证明了 IoA 的性能始终优于最先进的基准，展示了它促进异构智能体之间有效协作的能力。IoA 代表着在类似互联网的环境中连接不同智能体的一个步骤，在这种环境中，智能体可以无缝协作，实现更高的智能和能力。

论文链接：

https://arxiv.org/abs/2407.07061

GitHub 地址：

https://github.com/OpenBMB/IoA

2.清华团队推出 LLM 增强实体链接方法 LLMAEL

实体链接（EL）模型在根据给定上下文将提及内容（mention）映射到相应实体方面有很好的表现。然而，由于训练数据有限，EL 模型很难对长尾实体进行消歧。与此同时，大语言模型（LLM）在解释不常见的提及方面更为强大。然而，由于缺乏专门的训练，LLM 在生成正确的实体 ID 方面存在缺陷。此外，训练 LLM 执行 EL 需要大量成本。

为此，来自清华大学和北京大学的研究团队推出了 LLM 增强实体链接——LLMAEL，这是一种即插即用的方法，可以通过 LLM 数据增强来增强实体链接。他们利用 LLM 作为知识上下文增强器，生成以提及为中心的描述作为额外输入，同时保留传统的 EL 模型用于特定任务处理。

在 6 个标准数据集上进行的实验表明，LLMAEL 在大多数情况下都优于基准 EL 模型，而经过微调的 LLMAEL 在所有 6 个基准中都取得了 SOTA。

论文链接：

https://arxiv.org/abs/2407.04020

3.Google DeepMind：用弱 LLM 评判强 LLM 的可扩展监督

可扩展的监督协议旨在使人类能够准确监督“超人”的人工智能（AI）。

在这项工作中，来自 Google DeepMind 的研究团队探讨了辩论（debate）协议，即两个人工智能竞争说服一名法官；咨询（consultancy）协议，即一个人工智能试图说服一名提问的法官；以及与直接回答问题的基线进行比较，即法官在没有人工智能的情况下直接回答问题。

他们使用大语言模型（LLM）作为智能体和人类法官的替代，并假定法官模型要弱于智能体模型。他们以法官和智能体之间的各种不对称情况为基准，扩展了以前在信息不对称的单一抽取式 QA 任务方面的工作，也包括数学、编码、逻辑和多模态推理不对称情况。

他们发现，在所有任务中，当咨询被随机分配为争论正确/错误答案时，辩论的效果都优于咨询。将辩论与直接回答问题进行比较，结果取决于任务类型：在信息不对称的抽取式 QA 任务中，辩论优于直接回答问题，但在信息不对称的其他任务中，结果不一。以往的研究为辩论/咨询指定了一个要论证的答案。而当他们允许二者选择支持哪一个答案时，他们发现法官在辩论中被错误答案说服的频率比咨询中要低。此外，他们还发现，更强的辩论会提高法官的准确性，尽管与之前的研究相比，提高幅度不大。

论文链接：

https://arxiv.org/abs/2407.04622

4.Google DeepMind 推出开放视觉语言模型 PaliGemma

PaliGemma 基于 SigLIP-So400m 视觉编码器和 Gemma-2B 语言模型构建，是一个通用的、知识面广、可有效转移的基础模型，在各种开放世界任务中都表现出色。在这项工作中，Google DeepMind 团队评估了 PaliGemma 在近 40 项不同任务上的表现，包括标准 VLM 基准，以及遥感和分割等更专业的任务。

论文链接：

https://arxiv.org/abs/2407.07726

5.微软研究院推出可扩展的智能体框架 AgentInstruct

合成数据对于加速大、小语言模型的开发越来越重要。尽管有一些成功的使用案例，但研究人员也对模型崩溃和模仿其他模型的缺点提出了担忧。造成这种差异的原因是合成数据的质量和多样性各不相同。要有效利用合成数据，通常需要花费大量人力来整理数据。

在这项工作中，来自 Microsoft Research 的研究团队使用合成数据进行后期训练，即“通过强大的模型创建数据并向另一个模型传授新的技能或行为”，他们将其称为生成式教学（Generative Teaching）。他们提出了个可扩展的智能体框架——AgentInstruct，用于自动创建大量不同的高质量合成数据。只需将文本文档和代码文件等原始数据源作为种子，AgentInstruct 就可以创建提示和回复。他们还创建了一个包含 2500 万对句子的训练后数据集，用于教授语言模型的不同技能，如文本编辑、创意写作、工具使用、编码、阅读理解等，从而展示了 AgentInstruct 的实用性。该数据集可用于任何基础模型的指令微调。

他们利用这些数据对 Mistral-7b 进行了后期训练。将生成的 Orca-3 模型与 Mistral-7b-Instruct（使用相同的基础模型）进行比较，他们发现在许多基准测试中都有显著改进。例如，在 AGIEval 上提高了 40%，在 MMLU 上提高了 19%，在 GSM8K 上提高了 54%，在 BBH 上提高了 38%，在 AlpacaEval 上提高了 45%。此外，它的性能始终优于 LLAMA-8B-instruct 和 GPT-3.5-turbo 等其他模型。

论文链接：

https://arxiv.org/abs/2407.03502

6.微软推出 MInference：将 LLM 处理时间缩短 90%

大语言模型（LLM）推理所面临的计算挑战仍然是其广泛应用的一大障碍，尤其是随着提示长度的不断增加。由于注意力计算的二次方复杂性，在单个 A100 GPU 上，8B LLM 处理一个包含 100 万个 token 的提示需要 30 分钟。现有的加速预填充方法在应用于长上下文 LLM 时往往无法保持可接受的准确性或效率。

为加速长序列处理的预填充，来自微软的研究团队提出了一种稀疏计算方法——MInference（Milliontokens Inference）。具体来说，他们确定了长上下文注意力矩阵中的三种独特模式——A-shape、Vertical-Slash 和 Block-Sparsethat，可用于在 GPU 上进行高效的稀疏计算。他们为每个注意力头离线确定最佳模式，并在推理过程中根据分配的模式动态建立稀疏索引。有了模式和稀疏指数，他们就能通过优化的 GPU 内核执行高效的稀疏注意力计算，从而显著降低长上下文 LLM 预填充阶段的延迟。这一技术可直接应用于现有的 LLM，无需对预训练设置进行任何修改或额外的微调。

在各种下游任务（包括 InfiniteBench、RULER、PG-19 和 Needle In A Haystack）和模型（包括 LLaMA-3-1M、GLM4-1M、Yi-200K、Phi-3-128K 和 Qwen2-128K）上的评估结果显示，MInference 在 A100 上有效地将预填充推理延迟降低了 10 倍，同时保持了准确性。

论文链接：

https://arxiv.org/abs/2407.02490

项目地址：

https://hqjiang.com/minference.html

7.斯坦福、谷歌团队推出首个视频自训练方法 Video-STaR

大型视觉语言模型（LVLM）的性能取决于其训练数据集的规模和质量。现有的视频指令微调数据集是通过用视频字幕提示大语言模型（LLM）来生成问答对的，缺乏多样性，大多是描述性的。与此同时，存在许多具有不同标签和监督的标签视频数据集，但将这些数据集集成到 LVLM 中并不容易。

在这项工作中，来自斯坦福大学和 Google Research 的研究团队提出了首个视频自训练方法——增强推理视频自训练（Video-STaR）。Video-STaR 允许利用任何标记的视频数据集进行视频指令微调。在 Video-STaR 中，LVLM 在指令生成和微调之间循环运行，他们发现：（1）LVLM 可以提高通用视频理解能力；（2）LVLM 可以在现有监督下适应新的下游任务。在生成过程中，LVLM 会被提示提出一个答案。然后只筛选出包含原始视频标签的答案，然后在生成的数据集上重新训练 LVLM。通过只对包含正确视频标签的生成答案进行训练，Video-STaR 利用这些现有视频标签作为视频指令微调的弱监督。

研究结果表明，Video-STaR 增强型 LVLM 在以下方面的性能有所提高：（1）通用视频 QA，TempCompass 的性能提高了 10%；（2）下游任务，Video-STaR 将 Kinetics700-QA 的准确率提高了 20%，将 FineDiving 的动作质量评估提高了 15%。

论文链接：

https://arxiv.org/abs/2407.06189

项目地址：

https://orrzohar.github.io/projects/video-star/

8.英特尔：在 CPU 上优化大语言模型的推理性能

大语言模型（LLM）在各种任务中表现出了卓越的性能和巨大的潜力。然而，在低资源环境中部署高性能 LLM 引起了业界的极大关注。当 GPU 硬件资源有限时，我们可以在 CPU 上探索替代方案。为了减轻经济负担，缓解硬件资源的限制，优化推理性能是必要的。

在这项工作中，来自英特尔公司的研究团队介绍了一种易于部署的推理性能优化解决方案，旨在加速 CPU 上的 LLM。在该解决方案中，他们采用了一种有效方法来减少 KV 缓存大小，同时确保精度。他们提出了一种分布式推理优化方法，并基于 oneAPI Collective Communications Library 实施。此外，他们还提出了 CPU 上 LLM 的优化方法，并针对最常用的模型进行了定制优化。

论文链接：

https://arxiv.org/abs/2407.07304

GitHub 地址：

https://github.com/intel/xFasterTransformer

9.SEED-Story：利用大语言模型生成多模态长篇故事

随着图像生成和开放式文本生成技术的显著进步，交错图像文本内容的创建已成为一个越来越引人关注的领域。多模态故事生成的特点是以交错的方式生成叙述性文本和生动的图像，已成为一项具有广泛应用价值的实用任务。然而，这项任务带来了巨大的挑战，因为它需要理解文本和图像之间复杂的相互作用，并能够生成连贯的、与上下文相关的文本和视觉效果的长序列。

在这项工作中，来自香港科技大学、香港中文大学和腾讯的研究团队，提出了一种利用多模态大语言模型（MLLM）生成扩展多模态故事的新方法——SEED-Story。

该模型建立在多模态大语言模型强大的理解能力基础之上，可以预测文本 token 和视觉 token，然后通过一个经过调整的视觉 de-tokenizer 进行处理，生成具有一致字符和风格的图像。

他们进一步提出了多模态注意力汇聚机制（attention sink mechanism），从而能够以高效的自回归方式生成多达 25 个序列的故事（只有 10 个序列用于训练）。此外，他们还提出了一个名为 StoryStream 的大规模高分辨率数据集，用于训练模型，并从各个方面对多模态故事生成任务进行定量评估。