论文链接:https://arxiv.org/abs/2410.05229
大模型不具备形式推理能力?5 大证据来了
图|由 GSM-Symbolic 模板生成的 50 套 8-shot 思想链(CoT)性能分布,显示了所有 SOTA 模型之间准确性的显著差异性。
图|通过修改条款数量来修改 GSM-Symbolic 的难度级别
图|o1-mini 和 o1-preview 的结果:这两个模型大多遵循我们在正文中介绍的相同趋势。然而,o1-preview 在所有难度级别上都显示出非常强大的结果,因为所有分布都彼此接近。
逻辑推理:大语言模型的真正挑战

