小伙伴们好!我今天看到一篇很牛的文章,微软+哈佛出品,赶紧跟大家分享一下。
论文题目:Mutual Reasoning Makes Smaller LLMs Stronger Problem-Solvers
主要内容:来自微软亚洲研究院和哈佛大学的研究团队提出了一种自博弈互推理方法—rStar,能够显著提高小语言模型(SLM)的推理能力,无需微调或高级模型!
这个模型具体是这样实现的:首先,一个目标小语言模型通过丰富的类人推理动作集,来增强蒙特卡洛树搜索(MCTS),从而构建出更高质量的推理轨迹。
接下来,另一个与目标SLM 功能相似的SLM 作为鉴别器,对目标SLM生成的每个轨迹进行验证。相互同意的推理轨迹被认为是相互一致的,因此更有可能是正确的。
五种SLM 的广泛实验表明,rStar 可以有效解决各种推理问题,包括 GSM8K、GSM-Hard、MATH、SVAMP 和 StrategyQA。
值得注意的是,rStar 将 LLaMA2-7B 的 GSM8K 准确率从12.51% 提高到 63.91%,将 Mistral-7B 的准确率从 36.46% 提高到 81.88%,将 LLaMA3-8B-Instruct 的准确率从74.53% 提高到 91.13%。是不是很牛!
困难和挑战当然也是存在的,主要以下两点:
1. 找到好办法不容易:有一种叫MCTS的方法可以帮助SLM去尝试和评估不同的解决方案。理想情况下,这种方法通过不断探索新可能和利用已知的好方法来提高解决问题的能力。但是由于SLM的能力有限,传统的MCTS带来的改进很小。一方面,可能的解决方案太多太复杂了,使得SLM难以找到有效的解决办法。另一方面,现有的基于MCTS的方法往往只考虑单个动作,这限制了多样性的发挥,并且难以应对各种任务。
2. 奖励分配难:第二个挑战是很难准确地给每个步骤打分。如果没有标准答案作为参考,就很难判断每一步是不是正确的;而且最终的答案是否正确也难以验证。自一致性方法中的多数投票要求大多数路径都是正确的,这对SLM来说通常是做不到的。有些方法如RAP使用自我奖励机制,但是研究发现SLM在这种机制下的表现接近随机。训练一个奖励模型可能会解决这个问题,但收集训练数据和跨任务应用仍然是难题。

