扬帆创投微信小程序
更聚焦的出海投融资平台
精准高效领先的融资对接服务
微信扫一扫进入小程序

网民给大模型打分,AI界《蒙面歌王》正在上演。

图片

 

作者丨汪酱
编辑丨火狐狸
 

在当下的AI时代中AI大模型已经深入我们的生活、工作以及方方面面。但有一个问题是,大模型的数量与迭代速度几乎到了令人眩晕的地步——从OpenAI的GPT系列、Anthropic的Claude、Google的Gemini,到层出不穷的国产旗舰与开源黑马,几乎每隔几周就有新AI和新版本问世,并且每一次都以“屠榜”的姿态登上各色榜单

 

表面上,这些排行榜为我们提供了直观的性能坐标,但当我们将这些高分模型真正拉进日常任务里,常会发现它们有的答非所问、有的记忆不连贯导致逻辑断裂、有的甚至还会自己“杜撰”。所谓“榜首”与“好用”之间,似乎隔着一道看不见的鸿沟

 

那么,在参数竞赛与分数泡沫之外,究竟有没有一种方式,能让普通用户乃至各行各业的从业者,更加直接且迅速地找到适合自己的、真正“好用”的AI产品?

 

别说,好像还真有。

 

比如LMArena。LMArena是一个AI评测平台,用户可以在LMArena上试用各种模型并投票,最关键的一点,LMArena采用的双盲测试形式,即随机给用户提供模型,并且不告知模型名字,真正在AI圈里玩了一把《蒙面歌王》选秀。

 

图片

 

23年5月到25年5月,LMArena仅用了3年,就从一个实验性的开源网站成长为一家具备商业化运营能力的公司,期间(5月)完成了1亿美元种子轮融资,估值6亿美元。而在今年1月7日,仅8个月时间,LMArena又完成了1.5亿美元的A轮融资,由Felicis和加州大学投资公司(UC Investments)领投,a16z、The House Fund、LDVP、Kleiner Perkins、Lightspeed Venture Partners等跟投。这轮投资过后,LMArena累计融资2.5亿美元,估值从6亿美元飙升至17亿美元,成为AI界又一独角兽。

 

华人团队主导研发,能测评AI模型的产品什么样?

 

LMArena并非一个新AI平台,其第一次面世是在2023年5月,彼时LMArena名为Chatbot Arena(为了统一,下文统称LMArena),由LMSYS这一开源组织创建。

 

LMSYS的“含中量”非常高。其核心成员基本都是来自斯坦福、伯克利、UCSD、CMU等全球顶尖名校的学霸,LMArena这个开源项目也是由华人团队主导开发的。

 

据调查,LMArena的成功有些“误打误撞”——该项目早期只是LMSYS为了测试自家开源模型水平而做的一个测试平台:把模型放到网站上,让用户以盲测的方式来选出更优秀的那个,由此得到的结果显然更加公平和权威。最终结果是,LMArena从一个用户“测着玩”的开源网站,发展成了AI界的金牌裁判。

2023年5月到24年期间,不仅Claude、GPT-4、Gemini、DeepSeek等知名大模型都陆续接入LMArena,随着模型能力的扩展,LMArena也切入了更多AI细分赛道,支持对搜索、图像、代码、实时网页开发AI生成能力的评估。而在这个过程中,LMArena逐渐成为了“模型能力试金石”,成为大模型背后公司们争抢的“宣发阵地”。

 

图片

(图源:LMArena官网)

 

也正是基于此,LMArena找到了商业化的切入口。此前,LMArena面向的主要是C端普通用户,而普通用户在使用LMArena时是完全免费的,他们能为LMArena提供的是流量和数据。据悉,截至目前LMArena的每月活跃用户数量超过500万,覆盖了150多个国家,月对话量达6000万次,上线至今累计真实人机对话已经超过2.5亿次,此外累计用户投票次数也超过5000万次

 

而在大模型公司将LMArena视作重要阵地并纷纷入驻之后,LMArena在25年9月推出了一项名为“AI Evaluations”的B2B付费服务,形式是提供定制化评测。简单来说,就是AI企业或者实验室付费给LMArena,通过其众包社区对模型进行评估,基于LMArena在C端用户群体之间的声量,这些经过验证的AI很容易获得普通用户的好感。根据LMArena数据,其付费服务上线不到4个月(截至25年12月底),ARR就从0冲到了3000万美元,包括OpenAI、Google、xAI等在内的头部AI企业都是LMArena的合作用户

 

其次值得注意的是,LMArena目前还有一项新兴的收入来源——Private Arenas,该功能允许模型开发者使用内部或敏感数据来评估专有系统,而无需将结果公开。

 

此外,LMArena下一步商业化的方向还包括“评估工具与分析服务商业化”和“API与SDK访问权限”,前者能提供针对不同领域模型的定制化工具和AI能力相关的诊断报告;后者则能让AI企业将LMArena的评估流程和编程方式集成到自身训练、发布或者监控等工作流中使用。

 

这样一来,LMArena就同时打通了B端和C端,一方面,保证了C端用户体验,维持住了高活跃;另一方面,给AI企业提供了大量真实用户数据,一定程度上解决了模型开发调优过程中的一些盲点;其次,其提供的私人定制服务和领域,解决了AI企业无法在公域测试评估模型的痛点;最后,也为他们提供了一个理想的宣发阵地。

 

更值得关注的是,作为首个AI评测类产品,LMArena几乎已经“垄断”了这个市场,也因此成为资方们的“首选”Felicis从种子轮的跟投方变成A轮的领投方,就很好地证明了这一点。

 

有潜力,也有风险

 

LMArena的火爆,展示了AI评测市场的潜力。但也是LMArena,让我们注意到了AI评测类产品目前存在的隐忧。

 

2025年底,美国数据标注公司Surge AI发布了一篇文章,称LMArena是AI界的毒瘤。

 

图片

(图源:Surge AI官网blog)

 

先提一下,Surge AI由美籍华裔Edwin Chen创立,是AI数据标注领域的绝对头部企业。这家企业和其背后的创始人有着相当传奇的色彩:团队不足100人、没有经历过融资、不过分营销,但却在成立第一天就开始盈利,并且成立不到4年营收就突破了10亿美元,创始人Edwin Chen则是在38岁达成身家180亿美元成就,进入2025年福布斯亿万富豪榜。

 

图片

 

也正是基于Surge AI在“数据”领域的影响力,此文章发布后一度在全球引发了非常激烈的讨论。过程是这样的:Surge AI对LMArena的500组投票数据进行了分析,发现错误率有52%,且39%的投票结果和现实情况完全相悖

 

图片

(图源:Surge AI官网blog-《LMArena is a cancer on AI》)

 

他们还给出了几组示例,比如询问两个AI模型关于蛋糕烤盘的问题,A表示“9英寸圆形蛋糕盘和9x13英寸长方形烤盘尺寸相同”,B则通过严谨计算给出了正确答案。但用户投票却给了A,原因是A的回答更自信。

 

图片

(图源:Surge AI官网blog-《LMArena is a cancer on AI》)

 

借由这个示例,Sruge AI表示,这些AI的评估者并非专业人士,并且由于当代人几乎都受到TikTok等短视频的影响,他们更偏好表情符号和回答长度而非数据质量,因此他们评估得到的结果可以想见也并不严谨,但他们的决定,却能一定程度上决定AI模型的发展方向,并且影响AI开发者的决策。

 

比如Meta发布的Maverick模型,在接入LMArena的版本中就完全靠拢用户倾好,增加了不少emoji,并且凭借用户投票冲入LMArena榜单TOP2,而实际公开版本却完全不同,在三方榜单上的排名和LMArena排名一度相差30名。

 

图片

(图源:Surge AI官网blog-《LMArena is a cancer on AI》)

 

如果AI模型们都朝着排版更好看、符号表情更丰富的方向,追求排名和用户点击,而不是打造更真实可靠、安全的数据和内容,坚守立场和原则,就好比明星听从粉丝的要求来决定妆造和事业方向,那么势必会破坏应有秩序。虽然我们也看到有AI产品在坚持自己的立场,但如果能引领行业的AI企业不做出调整和表率作用,那么届时AI领域极有可能会倒退

 

而这个经由LMArena为代表的AI评测类产品引发的思考,或许会成为未来整个AI领域都要面对的严肃议题。

 

写在最后

 

最后,Scale AI和LMArena的“战争”还在持续。为了解决他们自己提出的质疑,Scale AI在25年9月推出了Seal showdown平台,在这一平台上,评估者从普通用户变成了律师、医生、教授等付费专家们,以增加评估结果的专业度和严谨性。虽然目前效果还未可知,但站在第三方视角,扬帆出海认为这可能并非解决此类事件的最佳答案。这条赛道最终会如何发展?或许还需要时间来解答——我们期待下一个AI评测爆品的出现。

 

参考文章:

1.LMArena is a cancer on AI

https://surgehq.ai/blog/lmarena-is-a-plague-on-ai

2.Report:LMArena Business Breakdown&Founding Story | Contrary Research

https://research.contrary.com/company/lmarena

原文链接:点击前往 >

文章作者:汪酱

版权申明:内容仅供网友参考学习。如有侵权,请联系客服,扬帆出海欢迎行业优质稿件投稿。扬帆出海为您提供中国互联网出海权威资讯,提升出海认知;对接全球企业合作资源,构建企业本地化壁垒;10万+出海从业者社群,帮助打通行业人脉。 更多资讯关注扬帆出海官网:https://www.yfchuhai.com/

{{likeNum}}

好文章,需要你的鼓励

请前往扬帆出海小程序完成个人认证
认证通过后即可申请入驻
扫码添加小助手
微信扫描二维码,添加小助手
微信号:yfch103
扫码添加小助手
微信扫描二维码,添加小助手
微信号:yfch103
APP
小程序
微信公众号
微信小程序
扬帆出海APP
扬帆出海APP
微信
公众号
微信公众号
关注扬帆出海
专注服务互联网出海!
出海人
社群
微信公众号
扫码进群
与16万+出海人同行!