当前位置:主页 > 快讯 >

Cognition推出FrontierCode:首个衡量代码合并质量的AI评测集

时间:2026-06-09 12:43:48

  消息,Cognition推出全新智能体代码评测集FrontierCode,重点评估AI生成代码的「可合并性」。该评测集由Celery、Budibase、Uppy和Mattermost等36个开源项目维护者共同开发,每项任务由开发者投入超过40小时打磨,划分为Extended、Main和Diamond三个级别。在Diamond任务集上,当前大模型表现仍有提升空间:Claude Opus 4.8得分13.4%,GPT-5.5得分6.3%,Gemini 3.1 Pro得分4.7%,而开源模型Kimi K2.6得分3.8%。为防范大模型作弊,评测集引入多项评估机制,包括反向测试和修改限制。开发团队设计的Mutagent工具将评测误判率降至Swe-bench Pro的五分之一。

热点推荐
1 谷歌AI Plus订阅价格大降近四成,月费下调

消息,谷歌宣布为入门级AI订阅服务Google AI Plus降价,月费由7.99美元下调至4.99美元,同时将包...

2 Cognition推出FrontierCode:首个衡量代码合并

消息,Cognition推出全新智能体代码评测集FrontierCode,重点评估AI生成代码的「可合并性」。该评...

3 KONET (KONET)现已在KuCoin上线

消息,KuCoin宣布KONET 现已上线!用户可立即进行存款。拍卖时间为2026年6月9日09:00至10:00,提款...

4 BBX:Strategy低位买入1,550枚BTC,持仓升至

消息,BBX宣布,Strategy在6月1日至7日期间购入1,550枚BTC,总持仓升至845,256枚,累计成本约为63...

5 巨鲸追加买入366.65枚WBTC,总持仓超1.42亿

消息,监测显示,一巨鲸在过去23小时内以均价6.35万美元买入366.65枚WBTC,追加投资约233万美元...

6 Arthur Hayes:油价上涨及AI泡沫破裂或拖累

消息,BitMEX联创Arthur Hayes表示,若油价因美伊冲突持续走高,可能引发AI股票泡沫破裂,并拖累...

7 SBI新生银行秋季推出加密货币奖励服务

SBI新生银行计划于今年秋季推出面向存款客户的加密货币奖励服务。客户除获得法定货币存款...

8 Polymarket:SpaceX正式发布首颗AI卫星AI1,计

SpaceX正式发布其首颗AI卫星AI1,具备高达150,000瓦特的计算能力。...

9 多项加密资产进入买入区后开始反弹

消息,据Santiment数据显示,5月至6月初市场暴跌期间,比特币、以太坊、卡尔达诺、XRP和链环的...

10 Kulechov:AAVE在850亿美元DeFi提款潮中表现出

消息,AAVE创始人Stani Kulechov在巴黎的Proof of Talk会议上为去中心化借贷协议AAVE辩护,称其在今年...

成都来彰科技 蜀ICP备2025134723号-1

资讯来源互联网,如有版权问题请联系管理员删除。