LMArena:一年估值120亿元的AI评估独角兽


美国加州大学伯克利分校(UC Berkeley)孵化的创业公司LMArena,成立仅一年即成为估值17亿美元(约合人民币120亿元)的独角兽。其核心资产是全球规模最大的用户偏好大模型实时数据集,直击当前AI产业对模型可靠性评估的迫切需求。
该公司已完成两轮融资:种子轮1亿美元、A轮1.5亿美元,由Andreessen Horowitz(a16z)、Felicis Ventures、UC Investments等顶尖机构领投。
学术基因:从Chatbot Arena到LMArena
LMArena脱胎于大型模型系统组织(LMSYS),该组织由加州大学伯克利分校、斯坦福大学、卡内基梅隆大学等多所高校于2023年联合发起,2024年9月注册为非营利实体,专注孵化开源与研究项目。
2023年5月,伯克利博士生Anastasios N. Angelopoulos与Wei‑Lin Chiang在LMSYS支持下推出Chatbot Arena——一个基于众包反馈的AI模型评估平台。2025年1月,该项目正式商业化,更名为LMArena,由Angelopoulos任CEO、Chiang任CTO,Ion Stoica担任联合创始人兼顾问。

核心团队:学术权威与工程实力兼具
Ion Stoica为UC Berkeley计算机系教授、SkyLab天空计算实验室负责人,曾联合创办Databricks、Anyscale等知名AI基础设施公司。
Angelopoulos专注于可信AI、黑箱决策与医疗机器学习,曾任DeepMind学生研究员;Chiang则长期深耕分布式系统与深度学习框架,拥有谷歌、亚马逊、微软研究履历。
截至2025年4月,LMArena已累计完成超300万次模型对比,覆盖GPT-4、Gemini、Llama、Mistral等400多个商业及开源大模型,为用户与企业提供了直观的模型能力图谱。
Ion Stoica(左)Angelopoulos(中)Chiang(右)
为何需要实时人类偏好评估?
传统大模型基准测试多为静态,易被“记忆污染”数据干扰——模型可能通过死记硬背训练数据刷高分,却无法真正提升解决现实问题的能力。
LMArena采用实时用户反馈机制,通过匿名双盲对比投票(“左边更好”“右边更好”“平局”“都不好”),结合Elo评分体系生成动态排行榜。所有数据开放可查,并与模型厂商合作开展预发布测试,推动LLM持续优化。

图:Chatbot Arena界面
AI评估赛道的多元格局
当前主流AI测评平台呈现差异化定位:
- LMArena:以用户主观偏好为核心,强调对话体验与综合实用性,被业界视为“人气榜”与“黄金标准”,但偏爱风格讨喜、表达生动的答案。
- LiveBench:由杨立昆(Yann LeCun)联合Abacus.AI、纽约大学等推出,每月更新,采用最新数学竞赛题、Kaggle数据集及arXiv论文设问,杜绝“刷分”,专注检验模型真实推理与泛化能力,是衡量LLM“硬实力”的试金石。
- OpenRouter Rankings:基于API真实调用量排名,作为聚合调度平台整合400+模型(含OpenAI、Google、Anthropic等),收取5%-5.5%服务费,数据反映开发者实际使用倾向。
- 国内榜单:如上海人工智能实验室开源的OpenCompass、SuperCLUE,聚焦中文理解、文化适配与合规性,但商业化程度较低,尚无成熟对标LMArena的市场化评估服务。

争议与挑战:众包模式的可靠性边界
尽管增长迅猛,LMArena的评估机制仍面临质疑。美国数据标注公司Surge AI指出,其完全依赖无激励、无培训的志愿者进行快速点击投票,缺乏质量控制。例如在一道蛋糕模具数学题中,用户投票选中了表述更“合理”但结果错误的答案。
LMArena团队亦公开承认:用户普遍偏好带表情符号、冗长花哨的回答,而非实质高质量输出。这可能导致评测结果偏离真实能力,难以筛选出真正可靠的AI模型。

图:LMArena的投票者奖励错误的数学计算
资本市场的热捧背后,是行业对AI可靠性的强烈诉求。但当潮水退去,LMArena能否从“人气榜”升级为“权威认证”,仍需时间验证。






