以 2B 规模,在主流榜单多重超越 Mistral-7B,越级比肩 Llama2-13B,乃至更大的几十倍规模模型?
2月1日,旗舰端侧模型「面壁MiniCPM」开源发布,凭借其强有力的性能与极致低成本,堪称大模型里的小钢炮。
面壁 MiniCPM 是端侧模型,更是旗舰模型:
它以小博大,不仅有惊人越级表现,还在堪称最接近用户体感的 MT-Bentch 上,表现优异;
它全面开挂,开启端侧部署多模态能力的先河,能说会看,还具备编程能力;
它还是能效之王,极其高效、极低成本,是面壁团队一贯「高效」技术路线成果与「模型沙盒」实验技术创新的集大成者。➤ GitHub 项目地址
https://github.com/OpenBMB/MiniCPM
➤ HuggingFace 项目地址
https://huggingface.co/openbmb/MiniCPM-2B-sft-bf16
面壁智能 CEO 李大海说:「这是面壁“大模型+Agent ”双引擎战略的关键一步,从智能发展而言,我们坚定认为智能体化是未来迈向通用智能的必由之路,而智能体必然要在端侧服务用户,我们接下来会进一步探索 Agent +云端协同的工作机制,实现智能赋能万物。」
清华大学副教授刘知远说:「从技术研判而言,2023 年 ChatGPT 和 GPT-4 的推出,表明大模型技术路线已经基本确定,接下来就是要探索其科学机理,并极致地优化效率,我们这次推出端侧大模型,也是向大家分享一个 2B 级别大模型所能达到的性能机制,让大家认识到即使 2B 尺寸大模型的效果极限还没有被充分挖掘出来,这是一个科学问题也是一个技术问题,需要大家共同探索。」
大模型时代呼唤 AI 原生应用与原生硬件,众多主流手机、PC 与汽车品牌相继宣告接入大模型,端侧模型则是「云端协同」的关键一环。
作为 2024 开年献礼之作,面壁 MiniCPM 在极致小尺寸里,迸发全面出众表现。

集面壁「高效」路线成果之大成
Mistral-7B 是全球范围内「以小博大」的标杆模型,被称为「开源模型新王者」。相比而言,面壁 MiniCPM 以仅仅 2B 的参数规模、1T tokens,中英文平均成绩超越 Mistral-7B,表现十分惊艳!
在同等规模模型中,面壁 MiniCPM 取得主流榜单的大幅领先成绩,相比 Llama2-13B、甚至 40B 量级的大个子,也在代码、逻辑能力等重要榜单上毫不逊色。
而高质量数据和持续训练友好的数据策略,大大激活了模型潜能。

AI 才能,时刻陪伴
语言能力方面,面壁 MiniCPM 可以把中英语言夹杂的句子翻译成法语。
他还能准确地进行知识问答,譬如准确答出山东最高山是泰山,甚至还知道它和黄山的准确海拔,并计算出差值。
此外,甚至可以为你言语中的情感流露配上可爱小表情,也能对人物性格进行活灵活现的演绎。
虽是小模型,但也具备代码能力。甚至, MiniCPM 还能够写出一串「复刻自己」的代码片段。
* MiniCPM 具备当下同量级最强多模态能力
为什么在端侧小模型中,我们也需要如此强大的全面能力呢?在网络条件有限的极限环境中,云端模型能力无法被充分调动,端侧模型是否强大可信赖就至关重要。
譬如,对于户外运动爱好者,就格外需要在「断网」情况下进行端侧模型求助。当然,这些案例仅为科研示范,有关生命健康安全的重大问题目前还是应该通过正规渠道严肃解决。
* 以上仅为科研示范,请勿盲目模仿

高效低成本的端侧旗舰
支持CPU推理,170万tokens 仅需1元
「1张显卡」即可高效参数微调在规模飙升的技术竞赛中,成本是大模型的隐形竞争力。
低成本端侧推理之外,仅需一台电脑、一张显卡就能完成对 MiniCPM 的 SFT,甚至消费级显卡也能流畅玩转大模型,大大拯救算力焦虑!

可以说,MiniCPM 是 面壁迄今最强的端侧旗舰模型,拥有以小博大的越级性能,开启端侧部署多模态能力的先河,亦将高效低成本发挥至极致。
作为新年初心献礼之作,面壁将「小钢炮」全家桶通通开源,共包括 MiniCPM-SFT/DPO,MiniCPM-V 和 MiniCPM-SFT/DPO-int4。
➤ GitHub 开源地址
https://github.com/OpenBMB/MiniCPM
➤ HuggingFace 开源地址
https://huggingface.co/openbmb/MiniCPM-2B-sft-bf16
何为初心?
我们以面壁首款大模型 CPM 为之冠名,既是首个 20 亿级中文开源模型,也取 ChamPion Model 之意,立志做全世界最好的大模型。
而开源基因一直深植在面壁的血脉里,先有 OpenBMB 开源社区,再成立面壁智能,一直致力于贡献开源社区。
此外,面壁还一并开源了一个 12B 多模态模型 OmniLMM,一经推出就跻身开源社区最强多模态模型之一,取得 Object HalBench 榜单第一,在 MMHal-Bench 仅次于 GPT-4。
极佳的多模态流式实时交互能力,甚至全程无剪辑复刻了一段 Gemini 发布当时演示「剪刀石头布」的案例。
一只手拍摄视频,一只手做演示,然后用英文问它:我正在玩什么游戏?
它会回答:石头剪子布。它不仅能认出你出的是什么手势,还能告诉你如果要赢应该出什么。
这个过程中,OmniLMM 表现出了多重能力:实时动作识别,理解玩游戏的取胜策略,还可以通过语音识别工具理解用户问题。

面壁 CEO 李大海分享:「作为「大模型+Agent」双引擎战略的重要一步,更小的模型、更快的速度、更低的成本,对于构建 Agent 智能体万物智联、创造个体智能与群体智能交相辉映的智慧未来至关重要。」
将这次旗舰端侧模型的发布作为 2024「开年新开端」的标志,李大海对过去一年的面壁成绩单进行了回顾,包括千亿参数基座模型的发布,C端产品「面壁露卡」通过大模型备案,以及持续发布包含个体智能、群体智能与智能体通用平台的 Agent 体系等重要成果。
现在,年仅 1 岁的面壁智能已经汇聚 100 多人的顶尖科研团队,清北含量高于 80% ,平均年龄 28 岁;形成了一支能打硬仗的工程团队,来自阿里、字节、百度等国内外知名公司的中坚力量。
面壁无比珍惜大家的时间和创意才华,对人才轻轻托举,创造清晰友好透明的合作界面,打造让聪明人被呵护、能创造的环境。
新开端,秉承一贯以来「高效」技术路线,面壁立志让 AGI 来得更快一点,达到「智周万物」的美好愿景。
➤ GitHub 项目地址
https://github.com/OpenBMB/MiniCPM
➤ HuggingFace 项目地址
https://huggingface.co/openbmb/MiniCPM-2B-sft-bf16
🔗 面壁官网:https://modelbest.cn

