闻乐 发自 凹非寺
量子位 | 公众号 QbitAI
大模型评估平台LMArena官宣完成1.5亿美元A轮融资,估值达17亿美元。
本轮融资由Felicis和加州大学投资公司UC Investments领投,Andreessen Horowitz、The House Fund等跟投。
资本加码印证了AI时代大模型评估赛道的高成长性与战略价值。
这支核心成员90%以上为华人、平均年龄不到30岁的团队,崛起始于2023年ChatGPT发布后对开源模型评估体系的深度探索。
从学术探索到商业崛起
LMArena前身为AI圈广为人知的开源评测平台Chatbot Arena,由开源社区LMSYS发起,核心成员来自UC伯克利、斯坦福、UCSD、CMU等顶尖高校。
其自主研发的开源推理引擎SGLang在96块H100上实现接近DeepSeek官方报告的吞吐性能,已获xAI、英伟达、AMD、谷歌云、甲骨文云、阿里云、腾讯云、美团等广泛采用。
但真正推动其出圈的是对大模型的第三方众包评估实践。
2023年,团队在训练开源模型Vicuna后发现,传统基准测试难以真实反映模型能力差异。为此,他们推出Chatbot Arena——首个基于真实用户交互、双盲投票的动态评测平台。
用户仅需对两个匿名模型的回答进行偏好投票,系统随后揭晓模型身份。该机制迅速吸引全球AI开发者与爱好者参与,成为新模型上线前的“必测榜单”。
2025年5月,Chatbot Arena正式商业化,成立独立公司lmarena.ai,并完成1亿美元种子轮融资,估值6亿美元。
动态竞技场
LMArena是当前全球最具影响力的大模型动态评估平台,核心机制包括匿名对战、Elo式动态评分与人机协同评估框架。
用户输入问题后,系统随机匹配两个匿名模型作答;用户依据回答质量投票,投票完成后才揭晓模型身份。
平台采用Bradley–Terry模型构建Elo评分体系:每模型起始分相同,胜则加分、负则扣分,经大量对战后分数趋于稳定,形成实时更新的全球排行榜。目前Gemini 3 Pro以1490分居首。
人机协同机制通过算法平衡各模型曝光频次、任务类型及样本分布,避免因曝光偏差导致评估失真,确保公平性与客观性。
截至2026年初,LMArena累计收集跨模态投票超5000万次,完成400余种开源与闭源模型评测,产出14.5万个开源战斗数据点,覆盖文本、多模态、垂直领域等多类场景。
新融资将重点投入平台稳定性提升、用户体验优化及核心技术团队扩充。
参考链接:https://news.lmarena.ai/series-a/

