网民票选AI王者，LMArena一夜变17亿美元独角兽！- 大数跨境

首页

网民票选AI王者，LMArena一夜变17亿美元独角兽！

新智元

2026-01-07

新智元报道

编辑：倾倾

【新智元导读】一场AI界的《创造101》火了！LMArena让你盲投选出最强AI，三年从校园项目逆袭，刚刚融1.5亿美元，估值飙到17亿美元。众包投票挑战专家权威，争议四起，却已成行业标杆。你的票，就能决定下一个AI顶流！

一场AI界的《创造101》火了！

ChatGPT、Claude、Gemini、Grok等AI模型“整齐站好”，等待公演。

这不是选秀节目，而是真实发生在lmarena.ai上的AI大乱斗。

这个曾是加州大学伯克利分校的开源小项目，近期完成1.5亿美元融资，估值达17亿美元。

OpenAI、Google、xAI、Microsoft等顶级AI实验室，纷纷将自家模型送至平台参与PK。

AI强弱不再由大公司单方面定义，全球网民正掌握最终评判权。

这场「AI创造营」如何运作？谁会成为下一个顶流？我们一探究竟。

LMArena的「选秀起源」

从校园项目到硅谷舞台

2023年，加州大学伯克利分校Sky Computing Lab的一群研究生与教授发起开源项目Chatbot Arena。核心成员包括计算机科学教授Ion Stoica（Databricks联合创始人）、CEO Anastasios Angelopoulos和CTO Wei-Lin Chiang。

项目初衷极为简单：邀请用户匿名对比不同AI聊天机器人的回答质量。

上线后迅速走红，成长为AI领域最受欢迎的众包基准平台。

2025年5月，项目正式商业化，更名为LMArena，并完成1亿美元种子轮融资，估值6亿美元。

2026年1月6日，LMArena宣布完成1.5亿美元新一轮融资，由Felicis与加州大学投资臂联合领投，Andreessen Horowitz、Kleiner Perkins、Lightspeed Venture Partners等跟投，估值跃升至17亿美元，总融资超2.5亿美元。

当前，平台月活用户超500万，覆盖150个国家，每月生成对话超6000万次。

用户化身“全民制作人”，连最前沿的AI模型也在悄然入场比拼。

三年时间，LMArena完成了从学术实验到硅谷新贵的跨越。

其核心吸引力，正是那个简单却极具粘性的「盲盒PK」机制。

盲盒PK与网民投票

「全民制作人」的权利游戏

LMArena的Arena模式，核心就一个字：盲。

用户在lmarena.ai输入任意问题，系统随即随机匹配两个匿名AI模型作答。用户仅凭答案质量投票，提交后才揭晓模型身份——例如“左边为Gemini-3-Pro，右边为Grok-4.1”。

该机制兼顾公平性与参与感，类似拆盲盒，极易上瘾。

平台采用Elo评分系统实时更新模型得分：每胜一次加分，败则扣分。

截至7日前榜单，Gemini-3-Pro稳居榜首。

总分之外，LMArena还细分为多个能力榜单：文本对话、网页开发、视觉理解、文生图、图像编辑、搜索，以及文/图生视频等。

其中，Gemini-3-Pro在文本与视觉领域领先；Grok-4.1-thinking紧随其后；图像编辑榜单则由GPT-Image-1.5与Gemini变种交替占据高位。

为何顶级模型争相下场？CEO Anastasios Angelopoulos坦言：“领先AI公司使用我们，是因为他们自己也难以准确评估模型表现。”

尚未发布的模型常先托管至LMArena进行灰度测试，借助海量用户反馈快速迭代优化。

普通用户无需技术背景，几分钟即可参与投票——以“全民制作人”身份，把喜爱的AI推上C位。

数百万张选票汇聚成热搜级榜单，升降沉浮，全由真实用户偏好驱动。

「黑幕」质疑与「付费导师」的对决

如同所有高热度选秀，LMArena自诞生起便伴随争议：有人称其“过于民主”，也有人批评“过于混乱”。

最大质疑指向众包机制易被操纵。

2025年一项研究指出，Meta在Llama 4发布前，曾提交36个私有变体模型反复测试刷分，成功影响排行榜结果。研究团队来自Cohere、斯坦福大学与MIT。

此外亦有指控称：部分大厂存在优先托管、集中刷票等行为，导致榜单出现系统性偏差。

另一派观点则认为，普通网民投票专业性不足，“一张网友票怎能比得过专家打分？”

其主要竞争对手Scale AI即持此立场：2025年9月推出Seal Showdown平台，雇佣律师、医生、教授等付费专家开展结构化评估，强调方法论严谨性与低噪声。

对此，联合创始人Ion Stoica表示：“最高质量的评估标准，就是让用户在自己熟悉的话题上投票。”

他认为，用户对自身提问场景的理解最真实，而专家可能受限于知识背景或文化视角；全球150国用户的多样性，反而能规避单一文化主导风险。

尽管争议不断，LMArena排行榜已成事实行业标准——各大AI实验室照旧争先入场。

从排行榜到「AI经纪公司」

选秀不止于打投，LMArena也不止于排名。

新一轮1.5亿美元融资，重点投向三大方向：大规模扩充计算资源、招募顶尖工程师、打造企业级AI评估服务。

平台将面向OpenAI、Google、xAI等头部实验室，提供付费专业评估服务，涵盖模型压力测试、多维度反馈收集、定制化基准报告等。

在技术层面，LMArena正探索基于海量用户投票数据的RLHF（人类反馈强化学习）训练路径——将“优质回答”设为正向奖励，“差劣回答”作为负向惩罚，驱动模型持续进化。

Felicis合伙人Peter Deng指出：“一旦成为事实基准层，产品自然延伸。真正价值在于与AI实验室的深度协同——融合他们的内部数据与我们的外部比较数据。”

这场「AI创造营」才刚刚开播。

LMArena用三年证明：在AI时代，众包可挑战专家权威，民主投票正成为衡量智能最锋利的标尺。

更重要的是，它让我们从旁观者变为参与者——每一票，不仅决定今日榜单C位，更在潜移默化中塑造明日超级AI的进化轨迹。

ChatGPT、Grok、Gemini……谁能持续领跑，谁又将被黑马反超？答案，就在你手中。

【声明】内容源于网络

新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

内容 14745

粉丝 0

新智元智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

总阅读96.7k

粉丝0

内容14.7k