给大模型排名次，两个博士一年干出120亿独角兽，却被质疑产品数据准确性- 大数跨境

首页

给大模型排名次，两个博士一年干出120亿独角兽，却被质疑产品数据准确性

创业邦

2026-01-11

导读：“AI测评生意”够可靠吗？

LMArena：一年估值120亿元的AI评估独角兽

美国加州大学伯克利分校（UC Berkeley）孵化的创业公司LMArena，成立仅一年即成为估值17亿美元（约合人民币120亿元）的独角兽。其核心资产是全球规模最大的用户偏好大模型实时数据集，直击当前AI产业对模型可靠性评估的迫切需求。

该公司已完成两轮融资：种子轮1亿美元、A轮1.5亿美元，由Andreessen Horowitz（a16z）、Felicis Ventures、UC Investments等顶尖机构领投。

学术基因：从Chatbot Arena到LMArena

LMArena脱胎于大型模型系统组织（LMSYS），该组织由加州大学伯克利分校、斯坦福大学、卡内基梅隆大学等多所高校于2023年联合发起，2024年9月注册为非营利实体，专注孵化开源与研究项目。

2023年5月，伯克利博士生Anastasios N. Angelopoulos与Wei‑Lin Chiang在LMSYS支持下推出Chatbot Arena——一个基于众包反馈的AI模型评估平台。2025年1月，该项目正式商业化，更名为LMArena，由Angelopoulos任CEO、Chiang任CTO，Ion Stoica担任联合创始人兼顾问。

核心团队：学术权威与工程实力兼具

Ion Stoica为UC Berkeley计算机系教授、SkyLab天空计算实验室负责人，曾联合创办Databricks、Anyscale等知名AI基础设施公司。

Angelopoulos专注于可信AI、黑箱决策与医疗机器学习，曾任DeepMind学生研究员；Chiang则长期深耕分布式系统与深度学习框架，拥有谷歌、亚马逊、微软研究履历。

截至2025年4月，LMArena已累计完成超300万次模型对比，覆盖GPT-4、Gemini、Llama、Mistral等400多个商业及开源大模型，为用户与企业提供了直观的模型能力图谱。

Ion Stoica（左）Angelopoulos（中）Chiang（右）

为何需要实时人类偏好评估？

传统大模型基准测试多为静态，易被“记忆污染”数据干扰——模型可能通过死记硬背训练数据刷高分，却无法真正提升解决现实问题的能力。

LMArena采用实时用户反馈机制，通过匿名双盲对比投票（“左边更好”“右边更好”“平局”“都不好”），结合Elo评分体系生成动态排行榜。所有数据开放可查，并与模型厂商合作开展预发布测试，推动LLM持续优化。

图：Chatbot Arena界面

AI评估赛道的多元格局

当前主流AI测评平台呈现差异化定位：

LMArena：以用户主观偏好为核心，强调对话体验与综合实用性，被业界视为“人气榜”与“黄金标准”，但偏爱风格讨喜、表达生动的答案。
LiveBench：由杨立昆（Yann LeCun）联合Abacus.AI、纽约大学等推出，每月更新，采用最新数学竞赛题、Kaggle数据集及arXiv论文设问，杜绝“刷分”，专注检验模型真实推理与泛化能力，是衡量LLM“硬实力”的试金石。
OpenRouter Rankings：基于API真实调用量排名，作为聚合调度平台整合400+模型（含OpenAI、Google、Anthropic等），收取5%-5.5%服务费，数据反映开发者实际使用倾向。
国内榜单：如上海人工智能实验室开源的OpenCompass、SuperCLUE，聚焦中文理解、文化适配与合规性，但商业化程度较低，尚无成熟对标LMArena的市场化评估服务。

争议与挑战：众包模式的可靠性边界

尽管增长迅猛，LMArena的评估机制仍面临质疑。美国数据标注公司Surge AI指出，其完全依赖无激励、无培训的志愿者进行快速点击投票，缺乏质量控制。例如在一道蛋糕模具数学题中，用户投票选中了表述更“合理”但结果错误的答案。

LMArena团队亦公开承认：用户普遍偏好带表情符号、冗长花哨的回答，而非实质高质量输出。这可能导致评测结果偏离真实能力，难以筛选出真正可靠的AI模型。

图：LMArena的投票者奖励错误的数学计算

资本市场的热捧背后，是行业对AI可靠性的强烈诉求。但当潮水退去，LMArena能否从“人气榜”升级为“权威认证”，仍需时间验证。

【声明】内容源于网络

创业邦

创业邦是领先的国际创新生态服务平台，为高成长企业、金融机构、产业园区、地方政府提供全方位的媒体资讯、数字会展、数据研究、创新咨询、教育培训、资本对接等服务。公司及旗下基金获得IDG资本、DCM、红杉中国、北极光创投、顺为资本、腾讯投资、盛景投资、宜信、GGV等10余家世界顶级投资机构支持，并形成长期紧密的战略合作关系。

内容 14933

粉丝 1

创业邦山东创业邦创业服务有限公司创业邦是领先的国际创新生态服务平台，为高成长企业、金融机构、产业园区、地方政府提供全方位的媒体资讯、数字会展、数据研究、创新咨询、教育培训、资本对接等服务。公司及旗下基金获得IDG资本、DCM、红杉中国、北极光创投、顺为资本、腾讯投资、盛景投资、宜信、GGV等10余家世界顶级投资机构支持，并形成长期紧密的战略合作关系。

总阅读80.0k

粉丝1

内容14.9k