当前位置:主页 > 要闻 >

报告:固定算力掩盖了AI真实能力,前沿智能体进化速度被低估60%

时间:2026-07-03 19:16:55

  消息,英国AI安全研究所指出,当前主流AI智能体测试存在重大盲区,固定算力上限的评估方法严重低估了模型的真实能力与迭代速度。研究团队测试了多款前沿大模型在网络安全、软件工程和数学等基准中的表现,发现智能体的表现随着测试时算力的增加而持续提升。在网络攻防测试中,当算力预算从250万tokens提升至5000万tokens时,智能体可攻克任务的复杂度上限从2小时飙升至14小时。新模型在充足预算下的利用效率显著高于旧模型,前沿能力演进趋势比低算力测试陡峭约60%。然而,在缺乏即时反馈的医疗等领域,增加算力并不能提升智能体的表现,低预算评估可能导致决策者低估AI智能体的实际风险。

热点推荐
1 伊朗正寻求向日本出售石油,但潜在买家

消息,三位伊朗和西方消息人士称,伊朗已开始与日本公司就出售石油进行谈判,但潜在买家...

2 美股大赢家:SNDK空单新开仓,持仓规模

消息,SNDK空单新开仓1,829.22枚,开仓价为1,850.43美元,当前币价为1,852.70美元,当前清算价为...

3 报告:固定算力掩盖了AI真实能力,前沿

消息,英国AI安全研究所指出,当前主流AI智能体测试存在重大盲区,固定算力上限的评估方法...

4 OUSD宣称140多家企业参与,韩国公司否认合

全球稳定币联盟Open Standard宣布推出OUSD,并称Visa、Mastercard、BlackRock、三星电子、Dunamu等140多家...

5 比特币ETF结束10天资金流出,单日流入达

美国现货比特币ETF在7月2日录得净流入2.2172亿美元,结束了连续10天的资金流出。当前这些基金...

6 Tron:量子抗性签名功能现已上线测试网

消息,Tron宣布其量子抗性签名功能现已在测试网上上线,开发者可以开始使用这一功能。Tro...

7 Bitget公告:2026年7月3日部分reality代币及美

消息,Bitget平台宣布,因美股市场在其法定假日期间休市,部分reality代币及Bitget美股将同步暂...

8 ElevenLabs年化营收破3.3亿美元,拟2

消息,AI语音生成平台ElevenLabs联合创始人兼CEO Mati Staniszewski近日在波兰Bukowina Tatrzańska的会议上...

9 哈梅内伊葬礼前革命卫队总司令现身

消息,伊朗革命卫队总司令现身德黑兰伊朗为已故最高领袖阿里哈梅内伊举行葬礼前夕,一度...

10 市场避险需求高涨,BTC和ETH期权到期数据

本周有3.1万张BTC期权到期,put call ratio为0.7,最大痛点为61000美元,名义价值约19亿美元。同时...

成都来彰科技 蜀ICP备2025134723号-1

资讯来源互联网,如有版权问题请联系管理员删除。