微软公司发布了 三种新的先进小型语言模型人工智能模型,扩展了其包含推理能力的“Phi”系列人工智能模型。

周三发布的新模型引入了Phi-4-reasoning、Phi-4-reasoning-plus和Phi-4-mini-reasoning,为模型增添了思考能力,使其能够分解复杂的查询并进行高效的推理。该模型系列旨在为用户提供可在PC图形处理器或移动设备上本地运行的模型。
此次发布是微软最新发布的Phi-3的延续,为高效紧凑的型号系列添加了多模态功能。
Phi-4-reasoning 是一个拥有 140 亿个参数的开放权重模型,该公司表示,该模型在复杂任务上可与更大型的模型相媲美。Phi-4-reasoning-plus 是一个更高级的版本,具有相同的参数权重,并经过强化学习训练,使用 1.5 倍以上的 token 来实现比基础模型更高的准确率。这也会提升响应时间和计算能力。
其中最小的模型 Phi-4-mini-reasoning 旨在加载到移动设备和小型设备上。它是一个仅有 38 亿个参数的开放权重模型,并针对数学推理进行了优化,着眼于教育应用。
微软团队在一篇博客文章中表示:“Phi 推理模型引入了一类新的小型语言模型。通过提炼、强化学习和高质量数据,这些模型在规模和性能之间取得了平衡。它们足够小,适合低延迟环境,同时又保持着可与更大模型相媲美的强大推理能力。”
为了实现这些关键功能,微软使用网络数据和 OpenAI o3-mini 模型的精选演示来训练其 Phi-4-reasoning 模型。Phi-4-mini 推理模型使用 Deepseek-R1 生成的合成教学数据进行微调,并针对超过 100 万道涵盖从中学到博士阶段多个难度级别的数学问题进行了训练。
合成数据常用于训练人工智能模型,方法是利用“教师人工智能”来整理和扩充学生人工智能的训练材料。该教师模型可以生成数千甚至数百万道从简单到复杂的数学和科学练习题。
在基于推理的场景中,它提供逐步的解决方案,而不仅仅是最终的答案,使学生AI能够学习如何解决问题,而不仅仅是答案是什么。通过根据各种数学、物理和科学课程定制问题和解决方案,最终的模型可以在保持紧凑高效的同时实现高性能。

微软表示,尽管规模明显较小,但 Phi-4-reasoning 和 Phi-4-reasoning-plus 在大多数博士级数学和科学推理基准测试中均优于 OpenAI o1-min 和 DeepSeek1-Distill-Llama-70B。该公司还表示,在 AIME 2025 测试中,这些模型的表现甚至可能超过包含 6710 亿个参数的完整版 DeepSeek-R1 模型。AIME 2025 测试是美国国际数学奥林匹克竞赛的 15 个问题、时长 3 小时的资格赛。
免责声明:
关注我们,一起探索AWM!
近期热点
2025-04-25
2025-04-24
2025-04-24




