当前位置:主页 > 热点 >

斯坦福和伯克利提出LLMasaVerifier,同时刷新TerminalBench和SWEBench榜首

时间:2026-04-14 20:30:38

  消息,4 月 14 日,AI 编程代理处理单个任务时,跑多次往往能得到不同的解法,其中可能有对有错。如果能自动挑出最好的那个,整体成功率就能超过单次运行。问题是怎么挑:让另一个模型当裁判打分是目前的主流做法,但打分粒度太粗,经常给不同解法打出相同分数,分不出高下。 斯坦福 AI 实验室和伯克利 Sky Computing 实验室联合英伟达提出 LLM-as-a-Verifier,改进了这个挑选过程。不再只看裁判给出的最终分数,而是读取模型在每个评分等级上的概率分布,从中计算出一个连续的奖励值。同时让裁判重复评判多次取平均以消除偶然偏差,并将整体评估拆成三个独立维度分别验证。实验中使用 Gemini 2.5 Flash 作为验证器,单次验证准确率 74.7%,传统 Judge 仅 57.0%;重复 16 次后 Verifier 达 77.4%,Judge 为 70.2%。传统 Judge 有 26.5% 的对比以平局收场,Verifier 在所有配置下平局率均为 0%。 实际效果:在 Terminal-Bench 2 上,让 GPT-5.4 跑 5 次同一任务,随机选一个的成功率为 81.8%,用 Verifier 挑选后提升至 86.4%。在 SWE-Bench Verified 上,从 Claude Opus 4.5、Claude Opus 4.6 和 Gemini 3 Flash 各取 1 条解法,挑选后从 76.1% 提升至 77.8%。截至 4 月 9 日发布时,两项均为榜首。框架已开源。

热点推荐
1 疑现「马甲账户」多地址分散埋伏美光科

消息,今日HyperLiquid上共有四位巨鲸布局美光科技多仓,仅一名大额交易员建立空仓,市场大额...

2 Bitget上线REUSDT全仓杠杆

消息,Bitget宣布全仓杠杆现已新增RE/USDT交易对。为庆祝新币上线,Bitget现货杠杆将随机发放现...

3 Bitget上线STRC股票永续合约,最高支持20倍

消息,Bitget宣布已上线STRC股票永续合约,该合约以USDT结算,最高支持20倍杠杆,并支持7*24小时...

4 乌称第聂伯罗市遭袭,致4死10伤

消息,乌克兰第聂伯罗彼得罗夫斯克州军事管理局局长亚历山大汉扎29日通报称,俄罗斯军队当...

5 Vitalik:混淆技术与区块链可创建无信任第

消息,Ethereum联合创始人Vitalik Buterin在6月29日的博客中表示,混淆技术是密码学中最强大的概念...

6 某巨鲸从币安提取340枚BTC,持有总量达

消息,据onchain lens监测,某巨鲸从币安提取340枚BTC,按当前价格计算价值约2034万美元该巨鲸目...

7 Farmhouse公司增持0.25 BTC现持有7.209 BTC

消息,公共公司Farmhouse近日增持0.25 BTC,目前总持有量达到7.209 BTC。...

8 比特币ETF六月流出创纪录,达40亿美元

六月份,现货比特币ETF的资金流出达到了创纪录的40亿美元,成为有史以来最糟糕的月份。投资...

9 880 BTC从Coinbase Institutional转移至未知钱包

消息,据Whale Alert监测,880枚BTC刚刚从Coinbase Institutional转移至一个未知钱包。...

10 超55万枚比特币流入Binance与OKX,创2023年以

消息,据CryptoQuant分析师Darkfost表示,随着比特币跌破6万美元,超过22万枚比特币流入Binance热钱...

成都来彰科技 蜀ICP备2025134723号-1

资讯来源互联网,如有版权问题请联系管理员删除。