“XX发布最强开源大模型,多项基准测试全面超越XX等闭源模型!”
“万亿参数开源模型XX强势登顶全球开源模型榜首!”
“国产之光!XX模型在中文评测榜单拿下第一!”
随着AI时代的到来,各位的朋友圈、微博等社交平台是不是也常常被诸如此类的刷屏了?
今天这个模型拿到了冠军,明天那个模型变成了王者。评论区里有的人热血沸腾,有的人一头雾水。
一个又一个的现实问题摆在眼前:
如果各位也产生了类似的困惑,说明各位已经开始从“看热闹”转向“看门道”。
之中,我们便来拆解一下不同类型“AI竞技场”——也就是大语言模型排行榜——的“游戏规则”。
人类社会中,高考分数是决定学生大学档次的最主要评判标准。
同样地,在AI领域,也有很多的测试题,用来尽可能客观地衡量AI模型在特定能力上的表现。
因此,在这个大模型产品频繁推陈出新的时代,各家厂商推出新模型后,第一件事就是拿到“高考”考场上跑个分,是骡子是马,拉出来遛遛。
Artificial Analysis平台提出了一项名为“”的综合性评测基准,汇总了7个极为困难且专注于前沿能力的单项评测结果。
类似于股票价格指数,AAII能够给出衡量AI智能水平的综合分数,尤其专注于需要的任务。
这7项评测覆盖了被普遍视作衡量高级智能核心的三个领域:。
MMLU-Pro:
全称Massive Multitask Language Understanding - Professional Level
MMLU的加强版。MMLU涵盖57个学科的知识问答测试,而MMLU-Pro在此基础上,通过更复杂的提问方式和推理要求,进一步增加难度以测试模型在专业领域的知识广度和深度推理能力。
GPQA Diamond:
全称Graduate - Level Google - Proof Q&A - Diamond Set
此测试机包含生物学、物理学和化学领域的专业问题。与其名称对应,其设计初衷很直白:即使是相关领域的研究生,在允许使用Google的情况下也很难在短时间内找到答案。而Diamond正是其中难度最高的一个子集,需要AI具备较强的推理能力和问题分解能力,而非简单的信息检索。
Humanity’s Last Exam:
由Scale AI和Center for AI Safety联合发布的一项难度极高的基准测试,涵盖科学、技术、工程、数学甚至是人文艺术等多个领域。题目大多为开放式,不仅需要AI进行多个步骤的复杂推理,还需要AI发挥一定的创造性。这项测试能够有效评估AI是否具备跨学科的综合问题解决能力。
LiveCodeBench:
这是一项贴近现实的编程能力测试。与传统的编程测试只关注代码的正确性不同,AI会被置于一个“实时”的编程环境中,并根据问题描述和一组公开的测试用例编写代码,而代码将会使用一组更复杂的隐藏测试用例运行并评分。这项测试主要考验AI编程是否具备较高的鲁棒性以及处理边界情况的能力。
SciCode:
这一项编程测试则更偏向于学术性,专注于科学计算和编程。AI需要理解复杂的科学问题并用代码实现相应的算法或模拟。除了考验编程技巧,还需要AI对科学原理具备一定深度的理解。
AIME:
全称American Invitational Mathematics Examination
美国高中生数学竞赛体系中的一环,难度介于AMC和USAMO之间。其题目具备较高的挑战性,需要AI具备创造性的解题思路和数学功底,能够衡量AI在高级数学领域中的推理能力。
MATH-500:
从大型数学问题数据集“MATH”中随机抽取500道题构成的测试,覆盖从初中到高中竞赛水平的各类数学题目,涵盖代数、几何和数论等领域。题目以LaTeX格式给出,模型不仅要给出答案,还需要有详细的解题步骤,是评估AI形式化数学推理和解题能力的重要标准。
图:Artificial Analysis的AI模型智能排行榜
不过,由于模型的用处不同,各大平台并不会采用相同的测评标准。
例如,司南的大语言模型榜单根据其自有的闭源评测数据集进行评测,我们无法得知具体测试规则,但该团队面向社区提供了公开的验证集,每隔3个月更新评测题目。
图:OpenCompass大语言模型榜
与此同时,该网站也选取了一些合作伙伴的评测集,针对AI模型的主流应用领域进行评测并发布了测试榜单:
而HuggingFace也有类似的开源大语言模型榜单,测评标准中包含了前面提过的MATH、GPQA和MMLU-Pro:
图:HuggingFace上的开源大语言模型排行榜
在这个榜单中,还增加了一些测评标准,并附有解释:
IFEval:
全称Instruction-Following Evaluation
用于测评大语言模型遵循指令的能力,其重点在于格式化。这项测评不仅需要模型给出正确的回答,还注重于模型能否严格按照用户给出的特定格式来输出答案。
BBH:
全称Big Bench Hard
从Big Bench基准测试中筛选出的一部分较为困难的任务,构成了专门为大语言模型设计的高难度问题集合。作为一张“综合试卷”,它包含多种类型的难题,如语言理解、数学推理、常识和世界知识等方面。不过,这份试卷上只有选择题,评分标准为准确率。
MuSR:
全称Multistep Soft Reasoning
用于测试AI模型在长篇文本中进行复杂、多步骤推理能力的评测集。其测试过程类似于人类的“阅读理解”,在阅读后,需要将散落在不同地方的线索和信息点串联起来才能得到最终结论,即“多步骤”和“软推理”。此测评同样采用选择题的形式,以准确率为评分标准。
CO2 Cost:
这是最有趣的一项指标,因为大部分LLM榜单上都不会标注二氧化碳排放量。它只代表了模型的环保性和能源效率,而无法反映其聪明程度和性能。
同样地,在HuggingFace上LLM Leaderboard,也可以看到有多个领域的排行榜。
图:HuggingFace上的其他大语言模型排行榜
可以看到,把客观基准测试作为AI的“高考”,其优点很明确:。
同时,可以快速衡量模型在某一领域或某一方面的“硬实力”。
毕竟,在我们先前的大模型测评中,简单的财务指标计算也可能出错。
同时,客观基准测试很难衡量模型的“软实力”。
文本上的创造力、答案的情商和幽默感、语言的优美程度,这些难以量化、平时不会特意拿出来说的衡量指标,却决定着我们使用模型的体验。
因此,当一个模型大规模宣传自己在某个基准测试上“登顶”时,它就成为了“单科状元”,这已经是很了不起的成就,但离“全能学霸”还有很远距离。
前面已经说过,客观基准测试更注重于模型的“硬实力”,但它无法回答一个最实际的问题:
一个模型,到底用起来“爽不爽”?
一个模型可能在MMLU测试中知晓天文地理,但面对简单的文字一个模型可能在MATH测试中秒解代数几何,却无法理解用户话语中的一丝幽默和讽刺。
面对上述困境,来自加州大学伯克利分校等高校的研究人员组成的队提出了一个想法:
“既然模型最终为人而服务,那为什么不直接让人来评判呢?”
这一次,评判标准不再是试卷和题集,评分标准交到了用户手中。
LMSys Chatbot Arena,一个通过“盲测对战”来对大语言模型进行排名的大型众包平台。
对战时,两个模型同时登场,并对同一个问题进行解答,由用户决定谁输谁赢。
用户在投票前无法得知两个“选手”的“真实身份”,有效消除了刻板偏见。
对于一般用户来说,LMArena的使用方法非常简单:
登录后,首先由用户进行提问,系统会随机挑选两个不同的大语言模型,并将问题同时发送给它们。
匿名标注为Assistant A和Assistant B两个模型生成的答案会并排显示,而用户需要根据自己的判断,投票选择最合适的回答。
而在投票后,系统才会告知用户Assistant A和Assistant B分别是哪个模型,而这次投票也会加入到全球用户的投票数据中。
图:LMArena文本能力排行榜
LMArena中设计了七个分类的排行榜,分别是Text、WebDev、Vision、Text-to-Image、Image Edit、Search和Copilot。
每个榜单都是由用户的投票产生的,而LMArena采用的核心创新机制就是Elo评级系统。
这套系统最初用于国际象棋等双人对战游戏,可用于衡量选手的相对实力。
而在大模型排行榜中,每个模型都会有一个初始分数,即Elo分。
当模型A在一场对决中战胜模型B时,模型A就可以从模型B那赢得一些分数。
而赢得多少分数,取决于对手有多少实力。如果击败了分数远高于自己的模型,则会获得大量分数;如果只是击败了分数远低于自己的模型,则只能获得少量分数。
因此,一旦输给弱者,则会丢掉大量分数。
这个系统很适合处理大量的“1v1”成对比较数据,能够判断相对强弱而非绝对强弱,并能够使,更具备可信度。
在AI满天飞的环境下,它的优势在于。
同时,我们前面提到的创造力、幽默感、语气和写作风格等难以量化的指标将在投票中得以体现,有助于。
一是:其评测主要采取“一问一答”的方式,而对于需要多轮对话的任务则难以充分进行评估;
二是:这是统计中难以避免的现象,投票的用户群体可能更偏向于技术爱好者,其问题类型和评判标准必然无法覆盖普通用户;
三是:用户对于“好”和“坏”的评判过于主观,而Elo分数则只是体现主观偏好的平均结果;
四是:用户在对两个模型进行评判时,注意力往往放在答案的表述上,而忽视了回答内容的真实性。
AI江湖的“武林大会”远不止我们提到的这些排行榜。随着AI领域规模的不断扩大,评测的战场本身也变得越来越复杂和多元化。
很多学术机构或大型AI公司会发布自家的评测报告或自建榜单,体现出技术自信,但作为用户,则需要“打个问号”。
就像足球比赛有主客场之分,机构也可以巧妙地设计评测的维度和题目,使其恰好能放大某些模型的优势,同时规避其弱点。
另一个更加宏大的趋势是,。
据不完全统计,迄今为止,全球已发布大模型总数达到3755个。
“千模大战”的时代,一份冗长的通用榜单,显然无法满足所有人的需求。
因此,评测的趋势也不可避免地走向。
那么回到最初的核心问题:到底谁更权威?
。
如果你是程序员,就去试试AI编写代码、检查和修复Bug的能力;
如果你是大学生,就让AI去做文献综述,解释学术名词和概念;
如果你是营销人,就看看AI能否写出精彩的文案、构思和创意。
大模型是工具,不是神。看懂排行榜,是为了更好地选择工具。
与其迷信排行榜,真如把实际问题交给它试一试,哪个模型能,它就是你的“私人冠军”。
XBIT Wallet数据来源,比特币bitcoin今日价格行情,BTC比特币最新价格跌落至$88981.16,24小时跌幅达...
2 Coinbase 表示,随着稳定币市值向 1.2 万亿Coinbase预测,到2028年,稳定币市值将达到1.2万亿美元,届时加密货币将发展成为一种成熟的机...
3 Solana 总结:2025 年十大新闻Solana在2025年巩固了其作为领先区块链的地位,其标志性事件是成功推出现货ETF,募集资产超过...
4 尽管价格暴跌,贝莱德仍将比特币ETF列为贝莱德已将旗下iShares比特币信托ETF列为2025年三大投资主题之一,另外两个主题分别是iShares ...
5 以太坊第四季度重置:ETHBTC 会在 2026 年第当前的市场周期与历史模式背道而驰,山寨币季节指数显示,仅有12种山寨币的表现优于比特币...
6 立陶宛银行规定加密资产服务提供商过渡12月22日消息,立陶宛银行规定,加密资产服务提供商获得许可的过渡期将于 2025 年 12 月 31 日...
7 加密货币税损收割的倒计时已经不多了加密货币市场低迷带来了税损收割的机会,建议投资者寻找交易价格低于成本价的资产,卖出...
8 CoinDesk 20 业绩更新:Uniswap (UNI) 周末飙升CoinDesk 20 指数上涨 1.3% 至 2,781.63 点,其 20 只成分股中有 12 只上涨。UNI 领涨,飙升 19.0%,CRO...
9 ZKP涨超61%,现报0.19USDT消息,12 月 22 日,火币 HTX 数据监测显示,ZKP 快速上涨,最高涨至 0.2 USDT,现报 0.19 USDT,24...
10 Bybit理财上线Mantle Vault:稳定币链上高收12月22日消息,据官方消息,Bybit 理财上线全新产品 Mantle Vault,为 USDT 和 USDC 持有者提供智能化...
成都来彰科技 蜀ICP备2025134723号-1
资讯来源互联网,如有版权问题请联系管理员删除。