

【报告】斯坦福《2025年人工智能指数报告（中文版）》

新产研中心

2025-07-11

报告导读

近日，斯坦福《2025年人工智能指数报告》中文版发布，报告涵盖了研发、技术性能、负责任人工智能、经济影响、科学医疗、政策、教育以及社会舆论等主题。

自2017年首次发布以来，该报告一直致力于为政策制定者、研究人员、企业高管和公众提供准确、严谨、全球化的AI数据和洞察。正如报告联合主席 Yolanda Gil 和 Raymond Perrault 在序言中所言，2024年是人工智能发展史上具有里程碑意义的一年。AI已经以前所未有的速度融入社会、经济和全球治理的方方面面。从先进模型的性能飞跃到日常生活的深度嵌入，从创纪录的产业投资到日益收紧的政府监管，AI正从边缘走向中心，成为驱动商业价值、重塑科研范式乃至影响人类未来的核心力量。

报告要点梳理

人工智能在严苛比较基准测试中的性能持续提升。2023年，研究人员推出了MMMU、GPQA和SWE-bench等一系列新型比较基准，旨在测试前沿人工智能系统的极限。仅一年后，性能就大幅提升：MMMU、GPQA和SWE-bench的得分分别提高了18.8%、 48.9%和67.3%。除这些比较基准，人工智能系统在生成高质量视频方面也取得了重大进展，在某些特定场景下，基于语言模型的智能体在时间受限的编程任务中甚至表现优于人类。

随着不断的研究显示出人工智能对生产效率的强大影响，企业界全面拥抱人工智能，投资与应用双创新高。2024年，美国私人人工智能投资达1091亿美元，约为中国（93亿美元）的12倍、英国（45亿美元）的24倍。生成式人工智能的发展势头尤为强劲，吸引了全球339亿美元的私人投资——同比增长了18.7%。人工智能的商业应用也在加速普及，78%的企业在2024年应用了人工智能技术，较前一年的55%有所提升。同时，越来越多的研究证实，人工智能不仅可以提高生产效率，在多数情况下还有助于缩小劳动力的技能差距。

美国在开发顶级人工智能模型方面仍处于领先地位，但中国正在缩小与美国的差距。2024年，美国机构共开发了40个标志性的人工智能模型，而中国只有15个，欧洲只有3个。虽然美国在数量上保持领先，但中国的模型在质量上迅速缩小了差距：在MMLU和 HumanEval等主要比较基准上的性能差距从2023年的两位数缩小到2024年的接近持平。中国在人工智能论文和专利方面继续保持领先。模型开发日益全球化，中东、拉美和东南亚都推出了引人注目的模型。

负责任的人工智能生态系统发展不平衡。在人工智能相关的事故激增的同时，主要的工业模型开发商采用标准化的负责任的人工智能（Responsible AI，RAI）评测仍然很少见。不过，HELM Safety、AIR-Bench和FACTS等新比较基准为评估真实性和安全性提供了前景广阔的工具。企业层面，对负责任的人工智能风险的认知与实质性行动之间仍存在差距。相较而言，各国政府则表现出了更强的紧迫感：2024年，全球人工智能合作显著深化，经合组织、欧盟、联合国和非盟等组织相继发布了监管框架，聚焦透明度、可信度等负责任的人工智能核心原则。

全球对人工智能的乐观情绪正在攀升，但地区间仍存在较大差异。在中国（83%）、印度尼西亚（80%）和泰国（77%）等国家，绝大多数人认为人工智能产品和服务利大于弊。相比之下，加拿大（40%）、美国（39%）和荷兰（36%）等地的乐观程度仍然较低。不过，人们的情绪正在转变。自 2022 年以来，多个原持怀疑态度的国家的乐观情绪大幅增长，包括德国（+10%）、法国（+10%）、加拿大（+8%）、英国（+8%）和美国（+4%）。

人工智能变得更加高效、经济和易用。依托小型模型能力跃升，执行GPT-3.5级别的系统的推理成本在2022年11月至2024年10月间骤降280多倍。硬件层面，年化成本降幅达30%，能效年提升率达 40%。开源模型正在缩小与闭源模型的差距，在某些比较基准上，性能差距从8%缩小到仅1.7%。这些趋势加在一起，正在迅速降低先进人工智能的应用门槛。

各国政府正在加强对人工智能的监管和投资。2024年，美国联邦机构出台了59项与人工智能相关的法规，是2023年的两倍多，发布法规的机构数量也是2023年的两倍。全球范围内，75个国家的人工智能立法提及率自2023年以来增长21.3%，较2016年累计增幅达9倍。加强监管的同时，各国政府展开大规模投资：加拿大承诺投资24亿美元，中国启动了475亿美元的半导体基金，法国承诺投资1090亿欧元，印度拨款12.5亿美元，沙特阿拉伯更推出规模达千亿美元的“超越计划（Project Transcendence）”。

人工智能和计算机科学教育加速普及，但在资源获取和准备程度方面仍存落差。全球三分之二的国家现在已实施或规划基础教育阶段计算机科学教育，覆盖率是2019年的两倍，其中非洲和拉美地区进展最为显著。美国过去10年中计算机专业本科毕业生人数增长 22%。然而，在许多非洲国家，由于电力等基础设施的不足，获得计算机学位的机会仍然有限。在美国，81%基础教育阶段的计算机教师认同将人工智能纳入基础课程，但只有不到一半的教师认为自己具备相关教学能力。

产业依然在人工智能竞争中引领——但技术前沿竞争加剧。2024年，全球近90%的标志性的人工智能模型来自产业界，高于2023年的60%，而学术界仍然是高引用率研究的首要来源。模型规模持续快速扩张——训练计算每五个月翻一番，数据集每八个月倍增，能耗年增速100%。然而模型性能差距正在缩小，一年内，榜首和第十名模型的Elo技能得分差距从11.9%降至5.4%，现在前两名的差距仅为0.7%。技术前沿领域的竞争日趋激烈，头部阵营也日益集聚。

人工智能因其科学影响力获得最高学术荣誉。人工智能日益增长的重要性在重大科学奖项中得到了体现：两项诺贝尔奖分别授予深度学习（物理学奖）及人工智能在蛋白质折叠中的应用（化学奖），图灵奖则颁给了对强化学习的突破性贡献。

复杂推理仍是一项挑战。人工智能模型在国际数学奥林匹克竞赛问题等任务中表现出色，但在PlanBench等复杂推理比较基准中仍然举步维艰。即使存在理论正确解法，它们也常常无法可靠地解决逻辑任务。在精度至关重要的领域里，人工智能的有效性依然存在局限。