消息,微软研究团队发布的ECHO让CLI Agent在强化学习时,不仅学习「下一步该敲什么命令」,还学习「这条命令敲完后,终端会返回什么」。过去训练这类Agent时,终端返回的报错、日志、文件内容、测试结果通常只会进入上下文,帮助模型决定下一步动作,但训练损失主要算在Agent自己生成的命令上,终端返回内容本身不直接参与训练。ECHO改变了这一点:在同一次训练过程中,它会额外要求模型预测终端输出。实验显示,在terminalbench-2.0上,qwen3-8b的通过率从2.70%提升到5.17%,qwen3-14b从5.17%提升到10.79%。ECHO在部分8b实验中达到同等内部分数最少用约2.3倍训练步数,减少了对专家演示数据的依赖。ECHO证明了终端里的报错、日志和测试输出不仅是上下文,也可以直接变成Agent训练数据。
消息,吴说获悉,Kaiko宣布收购持牌欧洲DEFI基础设施提供商Cometh,整合其市场数据、分析、指...
2 保加利亚总理:希望美国对其国民赴美旅消息,保加利亚总理鲁门拉德夫周三表示,他与美国总统唐纳德特朗普进行了电话沟通,并提...
3 链上分析师:用户因物理攻击损失670万美消息,据链上分析师specter监测,一名Kraken和Coinbase用户损失670万美元,可能源于物理攻击。受...
4 特朗普下令美联储允许加密公司直接接入消息,特朗普下令美联储允许加密公司直接接入主账户。这一举措可能使加密公司能够像银行...
5 ARK Invest:在加密交易所Bullish上投资440万消息,ARK Invest在加密交易所Bullish的股票经历五天下跌后,买入了价值约440万美元的Bullish股票...
6 ECHO登场:让CLI Agent边敲命令边学会预判报消息,微软研究团队发布的ECHO让CLI Agent在强化学习时,不仅学习「下一步该敲什么命令」,还...
7 美国参议院通过决议,要求特朗普寻求国美国参议院于5月19日以50票对47票通过了一项决议,要求总统特朗普在伊朗战争中寻求国会批准...
8 俄罗斯国防部:确保了核弹药可被运送到消息,俄罗斯国防部:在核力量演习期间,确保了核弹药可被运送到导弹旅的场内储存设施中...
9 Tether与Gnosis共同领投Sorted Wallet种子轮融资消息,Tether与Gnosis共同领投面向新兴市场的非托管加密钱包Sorted Wallet的种子轮融资,总额为...
10 南卡罗来纳州州长签署法案保护比特币自消息,南卡罗来纳州州长签署了S.163法案,该法案保护比特币自我保管权利,禁止对比特币征收...
成都来彰科技 蜀ICP备2025134723号-1
资讯来源互联网,如有版权问题请联系管理员删除。