大数跨境
0
0

给AI打个分,结果搞出17亿估值独角兽???

给AI打个分,结果搞出17亿估值独角兽??? 量子位
2026-01-07
6
导读:大模型「匿名对战」出圈
闻乐 发自 凹非寺
量子位 | 公众号 QbitAI

大模型评估平台LMArena官宣完成1.5亿美元A轮融资,估值达17亿美元。

本轮融资由Felicis和加州大学投资公司UC Investments领投,Andreessen Horowitz、The House Fund等跟投。

资本加码印证了AI时代大模型评估赛道的高成长性与战略价值。

这支核心成员90%以上为华人、平均年龄不到30岁的团队,崛起始于2023年ChatGPT发布后对开源模型评估体系的深度探索。

从学术探索到商业崛起

LMArena前身为AI圈广为人知的开源评测平台Chatbot Arena,由开源社区LMSYS发起,核心成员来自UC伯克利、斯坦福、UCSD、CMU等顶尖高校。

其自主研发的开源推理引擎SGLang在96块H100上实现接近DeepSeek官方报告的吞吐性能,已获xAI、英伟达、AMD、谷歌云、甲骨文云、阿里云、腾讯云、美团等广泛采用。

但真正推动其出圈的是对大模型的第三方众包评估实践。

2023年,团队在训练开源模型Vicuna后发现,传统基准测试难以真实反映模型能力差异。为此,他们推出Chatbot Arena——首个基于真实用户交互、双盲投票的动态评测平台。

用户仅需对两个匿名模型的回答进行偏好投票,系统随后揭晓模型身份。该机制迅速吸引全球AI开发者与爱好者参与,成为新模型上线前的“必测榜单”。

2025年5月,Chatbot Arena正式商业化,成立独立公司lmarena.ai,并完成1亿美元种子轮融资,估值6亿美元。

动态竞技场

LMArena是当前全球最具影响力的大模型动态评估平台,核心机制包括匿名对战、Elo式动态评分与人机协同评估框架。

用户输入问题后,系统随机匹配两个匿名模型作答;用户依据回答质量投票,投票完成后才揭晓模型身份。

平台采用Bradley–Terry模型构建Elo评分体系:每模型起始分相同,胜则加分、负则扣分,经大量对战后分数趋于稳定,形成实时更新的全球排行榜。目前Gemini 3 Pro以1490分居首。

人机协同机制通过算法平衡各模型曝光频次、任务类型及样本分布,避免因曝光偏差导致评估失真,确保公平性与客观性。

截至2026年初,LMArena累计收集跨模态投票超5000万次,完成400余种开源与闭源模型评测,产出14.5万个开源战斗数据点,覆盖文本、多模态、垂直领域等多类场景。

新融资将重点投入平台稳定性提升、用户体验优化及核心技术团队扩充。

参考链接:https://news.lmarena.ai/series-a/

【声明】内容源于网络
0
0
量子位
各类跨境出海行业相关资讯
内容 14594
粉丝 0
量子位 各类跨境出海行业相关资讯
总阅读106.3k
粉丝0
内容14.6k