新智元报道
新智元报道
【新智元导读】一场AI界的《创造101》火了!LMArena让你盲投选出最强AI,三年从校园项目逆袭,刚刚融1.5亿美元,估值飙到17亿美元。众包投票挑战专家权威,争议四起,却已成行业标杆。你的票,就能决定下一个AI顶流!
一场AI界的《创造101》火了!
ChatGPT、Claude、Gemini、Grok等AI模型“整齐站好”,等待公演。
这不是选秀节目,而是真实发生在lmarena.ai上的AI大乱斗。
这个曾是加州大学伯克利分校的开源小项目,近期完成1.5亿美元融资,估值达17亿美元。
OpenAI、Google、xAI、Microsoft等顶级AI实验室,纷纷将自家模型送至平台参与PK。
AI强弱不再由大公司单方面定义,全球网民正掌握最终评判权。
这场「AI创造营」如何运作?谁会成为下一个顶流?我们一探究竟。
LMArena的「选秀起源」
从校园项目到硅谷舞台
2023年,加州大学伯克利分校Sky Computing Lab的一群研究生与教授发起开源项目Chatbot Arena。核心成员包括计算机科学教授Ion Stoica(Databricks联合创始人)、CEO Anastasios Angelopoulos和CTO Wei-Lin Chiang。
项目初衷极为简单:邀请用户匿名对比不同AI聊天机器人的回答质量。
上线后迅速走红,成长为AI领域最受欢迎的众包基准平台。
2025年5月,项目正式商业化,更名为LMArena,并完成1亿美元种子轮融资,估值6亿美元。
2026年1月6日,LMArena宣布完成1.5亿美元新一轮融资,由Felicis与加州大学投资臂联合领投,Andreessen Horowitz、Kleiner Perkins、Lightspeed Venture Partners等跟投,估值跃升至17亿美元,总融资超2.5亿美元。
当前,平台月活用户超500万,覆盖150个国家,每月生成对话超6000万次。
用户化身“全民制作人”,连最前沿的AI模型也在悄然入场比拼。
三年时间,LMArena完成了从学术实验到硅谷新贵的跨越。
其核心吸引力,正是那个简单却极具粘性的「盲盒PK」机制。
盲盒PK与网民投票
「全民制作人」的权利游戏
LMArena的Arena模式,核心就一个字:盲。
用户在lmarena.ai输入任意问题,系统随即随机匹配两个匿名AI模型作答。用户仅凭答案质量投票,提交后才揭晓模型身份——例如“左边为Gemini-3-Pro,右边为Grok-4.1”。
该机制兼顾公平性与参与感,类似拆盲盒,极易上瘾。
平台采用Elo评分系统实时更新模型得分:每胜一次加分,败则扣分。
截至7日前榜单,Gemini-3-Pro稳居榜首。
总分之外,LMArena还细分为多个能力榜单:文本对话、网页开发、视觉理解、文生图、图像编辑、搜索,以及文/图生视频等。
其中,Gemini-3-Pro在文本与视觉领域领先;Grok-4.1-thinking紧随其后;图像编辑榜单则由GPT-Image-1.5与Gemini变种交替占据高位。
为何顶级模型争相下场?CEO Anastasios Angelopoulos坦言:“领先AI公司使用我们,是因为他们自己也难以准确评估模型表现。”
尚未发布的模型常先托管至LMArena进行灰度测试,借助海量用户反馈快速迭代优化。
普通用户无需技术背景,几分钟即可参与投票——以“全民制作人”身份,把喜爱的AI推上C位。
数百万张选票汇聚成热搜级榜单,升降沉浮,全由真实用户偏好驱动。
「黑幕」质疑与「付费导师」的对决
如同所有高热度选秀,LMArena自诞生起便伴随争议:有人称其“过于民主”,也有人批评“过于混乱”。
最大质疑指向众包机制易被操纵。
2025年一项研究指出,Meta在Llama 4发布前,曾提交36个私有变体模型反复测试刷分,成功影响排行榜结果。研究团队来自Cohere、斯坦福大学与MIT。
此外亦有指控称:部分大厂存在优先托管、集中刷票等行为,导致榜单出现系统性偏差。
另一派观点则认为,普通网民投票专业性不足,“一张网友票怎能比得过专家打分?”
其主要竞争对手Scale AI即持此立场:2025年9月推出Seal Showdown平台,雇佣律师、医生、教授等付费专家开展结构化评估,强调方法论严谨性与低噪声。
对此,联合创始人Ion Stoica表示:“最高质量的评估标准,就是让用户在自己熟悉的话题上投票。”
他认为,用户对自身提问场景的理解最真实,而专家可能受限于知识背景或文化视角;全球150国用户的多样性,反而能规避单一文化主导风险。
尽管争议不断,LMArena排行榜已成事实行业标准——各大AI实验室照旧争先入场。
从排行榜到「AI经纪公司」
选秀不止于打投,LMArena也不止于排名。
新一轮1.5亿美元融资,重点投向三大方向:大规模扩充计算资源、招募顶尖工程师、打造企业级AI评估服务。
平台将面向OpenAI、Google、xAI等头部实验室,提供付费专业评估服务,涵盖模型压力测试、多维度反馈收集、定制化基准报告等。
在技术层面,LMArena正探索基于海量用户投票数据的RLHF(人类反馈强化学习)训练路径——将“优质回答”设为正向奖励,“差劣回答”作为负向惩罚,驱动模型持续进化。
Felicis合伙人Peter Deng指出:“一旦成为事实基准层,产品自然延伸。真正价值在于与AI实验室的深度协同——融合他们的内部数据与我们的外部比较数据。”
这场「AI创造营」才刚刚开播。
LMArena用三年证明:在AI时代,众包可挑战专家权威,民主投票正成为衡量智能最锋利的标尺。
更重要的是,它让我们从旁观者变为参与者——每一票,不仅决定今日榜单C位,更在潜移默化中塑造明日超级AI的进化轨迹。
ChatGPT、Grok、Gemini……谁能持续领跑,谁又将被黑马反超?答案,就在你手中。

