大数跨境
0
0

网民票选AI王者,LMArena一夜变17亿美元独角兽!

网民票选AI王者,LMArena一夜变17亿美元独角兽! 新智元
2026-01-07
8


新智元报道

编辑:倾倾
【新智元导读】一场AI界的《创造101》火了!LMArena让你盲投选出最强AI,三年从校园项目逆袭,刚刚融1.5亿美元,估值飙到17亿美元。众包投票挑战专家权威,争议四起,却已成行业标杆。你的票,就能决定下一个AI顶流!

一场AI界的《创造101》火了!

ChatGPT、Claude、Gemini、Grok等AI模型“整齐站好”,等待公演。

这不是选秀节目,而是真实发生在lmarena.ai上的AI大乱斗。

这个曾是加州大学伯克利分校的开源小项目,近期完成1.5亿美元融资,估值达17亿美元。

OpenAIGoogle、xAI、Microsoft等顶级AI实验室,纷纷将自家模型送至平台参与PK。

AI强弱不再由大公司单方面定义,全球网民正掌握最终评判权。

这场「AI创造营」如何运作?谁会成为下一个顶流?我们一探究竟。


LMArena的「选秀起源」

从校园项目到硅谷舞台

2023年,加州大学伯克利分校Sky Computing Lab的一群研究生与教授发起开源项目Chatbot Arena。核心成员包括计算机科学教授Ion Stoica(Databricks联合创始人)、CEO Anastasios Angelopoulos和CTO Wei-Lin Chiang。

项目初衷极为简单:邀请用户匿名对比不同AI聊天机器人的回答质量

上线后迅速走红,成长为AI领域最受欢迎的众包基准平台。

2025年5月,项目正式商业化,更名为LMArena,并完成1亿美元种子轮融资,估值6亿美元。

2026年1月6日,LMArena宣布完成1.5亿美元新一轮融资,由Felicis与加州大学投资臂联合领投,Andreessen Horowitz、Kleiner Perkins、Lightspeed Venture Partners等跟投,估值跃升至17亿美元,总融资超2.5亿美元。

当前,平台月活用户超500万,覆盖150个国家,每月生成对话超6000万次。

用户化身“全民制作人”,连最前沿的AI模型也在悄然入场比拼。

三年时间,LMArena完成了从学术实验到硅谷新贵的跨越。

其核心吸引力,正是那个简单却极具粘性的「盲盒PK」机制。


盲盒PK与网民投票

「全民制作人」的权利游戏

LMArena的Arena模式,核心就一个字:盲。

用户在lmarena.ai输入任意问题,系统随即随机匹配两个匿名AI模型作答。用户仅凭答案质量投票,提交后才揭晓模型身份——例如“左边为Gemini-3-Pro,右边为Grok-4.1”。

该机制兼顾公平性与参与感,类似拆盲盒,极易上瘾。

平台采用Elo评分系统实时更新模型得分:每胜一次加分,败则扣分。

截至7日前榜单,Gemini-3-Pro稳居榜首。

总分之外,LMArena还细分为多个能力榜单:文本对话、网页开发、视觉理解、文生图、图像编辑、搜索,以及文/图生视频等。

其中,Gemini-3-Pro在文本与视觉领域领先;Grok-4.1-thinking紧随其后;图像编辑榜单则由GPT-Image-1.5与Gemini变种交替占据高位。

为何顶级模型争相下场?CEO Anastasios Angelopoulos坦言:“领先AI公司使用我们,是因为他们自己也难以准确评估模型表现。”

尚未发布的模型常先托管至LMArena进行灰度测试,借助海量用户反馈快速迭代优化。

普通用户无需技术背景,几分钟即可参与投票——以“全民制作人”身份,把喜爱的AI推上C位。

数百万张选票汇聚成热搜级榜单,升降沉浮,全由真实用户偏好驱动。


「黑幕」质疑与「付费导师」的对决

如同所有高热度选秀,LMArena自诞生起便伴随争议:有人称其“过于民主”,也有人批评“过于混乱”。

最大质疑指向众包机制易被操纵。

2025年一项研究指出,Meta在Llama 4发布前,曾提交36个私有变体模型反复测试刷分,成功影响排行榜结果。研究团队来自Cohere、斯坦福大学与MIT。

此外亦有指控称:部分大厂存在优先托管、集中刷票等行为,导致榜单出现系统性偏差。

另一派观点则认为,普通网民投票专业性不足,“一张网友票怎能比得过专家打分?”

其主要竞争对手Scale AI即持此立场:2025年9月推出Seal Showdown平台,雇佣律师、医生、教授等付费专家开展结构化评估,强调方法论严谨性与低噪声。

对此,联合创始人Ion Stoica表示:“最高质量的评估标准,就是让用户在自己熟悉的话题上投票。”

他认为,用户对自身提问场景的理解最真实,而专家可能受限于知识背景或文化视角;全球150国用户的多样性,反而能规避单一文化主导风险。

尽管争议不断,LMArena排行榜已成事实行业标准——各大AI实验室照旧争先入场。


从排行榜到「AI经纪公司」

选秀不止于打投,LMArena也不止于排名。

新一轮1.5亿美元融资,重点投向三大方向:大规模扩充计算资源、招募顶尖工程师、打造企业级AI评估服务

平台将面向OpenAI、Google、xAI等头部实验室,提供付费专业评估服务,涵盖模型压力测试、多维度反馈收集、定制化基准报告等。

在技术层面,LMArena正探索基于海量用户投票数据的RLHF(人类反馈强化学习)训练路径——将“优质回答”设为正向奖励,“差劣回答”作为负向惩罚,驱动模型持续进化。

Felicis合伙人Peter Deng指出:“一旦成为事实基准层,产品自然延伸。真正价值在于与AI实验室的深度协同——融合他们的内部数据与我们的外部比较数据。”

这场「AI创造营」才刚刚开播。

LMArena用三年证明:在AI时代,众包可挑战专家权威,民主投票正成为衡量智能最锋利的标尺。

更重要的是,它让我们从旁观者变为参与者——每一票,不仅决定今日榜单C位,更在潜移默化中塑造明日超级AI的进化轨迹。

ChatGPT、Grok、Gemini……谁能持续领跑,谁又将被黑马反超?答案,就在你手中。

【声明】内容源于网络
0
0
新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
内容 14745
粉丝 0
新智元 智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
总阅读96.7k
粉丝0
内容14.7k