当前位置:主页 > 快讯 >

Ramp发布SWE

时间:2026-06-13 11:01:12

  消息,Ramp发布了针对前沿AI编码智能体的私有测试基准Ramp SWE-Bench。该基准包含80个源自Ramp真实生产环境的后端开发任务,旨在解决公共评估数据集因模型预训练而导致的数据泄露与指标饱和问题。根据公布的14款模型横向评测结果,Anthropic最新推出的Claude Fable 5以87.5%的解决率高居榜首,Claude Opus 4.7和GPT-5.5并列第二,解决率均为83.75%。测试数据还揭示了不同模型在价格与性能间的权衡,国产模型Kimi K2.6与GLM 5.1解决率相近,分别为72.5%与71.25%,但Kimi K2.6的平均成本为0.69美元,比GLM 5.1便宜约34%。

热点推荐
1 Meta将限制员工AI使用额度:自建网关监控

消息,Meta Platforms计划通过限制员工的token使用额度,来管控公司内部飙升的AI成本。根据一份...

2 Ramp发布SWE

消息,Ramp发布了针对前沿AI编码智能体的私有测试基准Ramp SWE-Bench。该基准包含80个源自Ramp真实...

3 Alpha农场新增SPCX

消息,Alpha农场现已新增SPCX-USDC流动性资金池,助您轻松参与,解锁更高年化收益。Alpha农场融...

4 Bitget关于恢复BNB

消息,Bitget宣布现已开放BNB - Binance Smart Chain网络的提币服务。对于暂停期间给您带来的不便,...

5 Gate完成SpaceX IPO股票分发,推出用户专属

消息,Gate宣布已完成SpaceXIPO首期项目的股票分发,用户可在股票账户查看已到账的SPCX股票资产...

6 Y Combinator支持美国《Clarity Act》加密市场

消息,Y Combinator发文支持美国《Clarity Act》加密市场结构法案,并表示其投资组合中的所有公司...

7 SPCX重磅登陆Bybit Alpha

消息,Bybit Alpha平台焕新登场,1种新资产SPCX正式上线链上交易,用户可使用Bybit统一交易账户...

8 BTC OG内幕巨鲸:多单浮亏收窄至1496万美元

消息,BTC OG内幕巨鲸的多单浮亏已从1699万美元收窄至1496万美元。该巨鲸的均价为76,117.30美元,...

9 Haseeb Qureshi:加密行业黑客事件数量创历

消息,dragonfly管理合伙人Haseeb Qureshi表示,尽管市场认为加密行业正经历黑客末日,但从数据看...

10 美媒:以色列施压阻止解冻伊朗资产作为

消息,以色列消息人士透露,以色列正向美国施压,要求其阻止将解冻伊朗资产作为停火协议...

成都来彰科技 蜀ICP备2025134723号-1

资讯来源互联网,如有版权问题请联系管理员删除。