李飞飞团队s1模型基于Qwen2.5-32B-Instruct训练，阿里云确认

2025-02-07 10:29 星期五

2月6日，李飞飞等人以不到50美元的云计算成本训练了一款名为s1的人工智能推理模型，在数学和编码测试中表现出色，与OpenAI的o1和DeepSeek的R1等顶级模型相当，引起广泛关注。然而，s1模型很快被指出“并非从零开始训练”，其基础模型是“阿里通义千问（Qwen）”。经新浪科技向阿里云核实，阿里云确认此消息并表示，他们在16块H100 GPU上通过监督微调开源模型Qwen2.5-32B-Instruct，用时26分钟训练出了新模型s1-32B，该模型在数学和编码能力方面达到了与o1和R1类似的水平，甚至在竞赛数学问题上的表现比o1-preview高出27%。