当前位置:主页 > 热点 >

ARCAGI3公布史上最大规模人类测试:所有关卡均被人类攻克,AI仍有差距

时间:2026-04-15 14:21:26

  消息,4 月 15 日,据 动察Beating 监测,ARC Prize 基金会公布了 ARC-AGI-3 的人类表现数据集,这是 ARC-AGI 系列迄今规模最大的人类测试研究,共 458 名参与者。数据集包含 342 条完整的人类操作回放记录,覆盖 25 个公开环境,已全部开源。 ARC-AGI-3 包含 135 个抽象推理环境,测试者不会收到任何玩法说明,必须自行探索、推断规则并制定策略。测试在旧金山的线下测试中心进行,每场 90 分钟,参与者获得约 130 美元底薪加每通关一个环境 5 美元奖励。所有测试均为「首次通关」条件,即每人只看一次、只尝试一次,衡量的是面对全新问题时的学习和适应能力。人类和 AI 获得完全相同的信息,没有任何信息差。 核心结论:ARC-AGI-3 的所有环境均被人类通关,每个环境至少有两名独立参与者完成,多数环境有五人以上通关。ARC Prize 基金会称「我们还没有实现 AGI,这份数据集就是证据」。 自 ARC-AGI-3 预览以来,公开环境已收到近 100 万份 AI 评测提交。基于这些数据,基金会同时宣布两项评分规则调整:一是将每关的人类基准从「第二好的玩家」改为「中位数玩家」,降低运气因素对得分的影响;二是将单关得分上限从 100% 提高到 115%,避免一关表现不佳拖垮整体成绩。两项调整的净效果是人类和 AI 得分均小幅上升约 0.5 个百分点。

热点推荐
1 DeFi黑客攻击损失达9.42亿美元,TVL大幅下

2026年DeFi平台遭遇121起黑客攻击,损失金额约为9.42亿美元。仅在第二季度,就发生了85起攻击,...

2 Sofi在比特币闪电网络推出汇款服务

消息,资产规模达360亿美元的Sofi宣布成为首家在比特币闪电网络上推出汇款服务的美国银行。...

3 John Egan:结算速度与高吞吐量是Polygon核心

消息,Polygon首席产品官John Egan表示,结算速度与高交易吞吐量使Polygon能够支持AI经济的发展。...

4 加密股票暴跌,欧盟针对新加密监管

消息,随着欧盟针对新加密监管的审查,加密股票遭遇重挫,跌幅超过主要科技股。Coinbase和...

5 国际清算银行警告AI支出狂潮可能引发投

消息,国际清算银行在年度经济报告中警告,大型科技公司的AI支出狂潮可能以持续性投资衰退...

6 Michael Anderson:区块链正成为AI与机器人行

消息,Framework Ventures联合创始人Michael Anderson表示,区块链正成为资本密集型行业的金融层,而...

7 Yuma推出面向机构的Bittensor生态投资基金

消息,DCG旗下投资公司Yuma推出Yuma Total Market Fund,面向机构投资者提供Bittensor生态投资敞口。该...

8 Upexi加入Russell微型股指数,Solana价格回升

消息,Upexi,第二大Solana加密资产财库公司,宣布已加入Russell微型股指数,并将于6月29日正式...

9 Michael Saylor:Bitcoin运行良好,微策略公司

消息,Michael Saylor表示,Bitcoin目前运行良好,微策略公司也在持续推进相关工作。...

10 美国马里兰州数字资产与区块链工作组将

消息,吴说获悉,美国马里兰州数字资产与区块链技术工作组将在7月13日至17日举行的Maryland...

成都来彰科技 蜀ICP备2025134723号-1

资讯来源互联网,如有版权问题请联系管理员删除。