ChatGPT o1被爆出现欺骗与自主行为

时间：2024-12-10 12:27:28

　　近日，关于人工智能（AGI）可能对人类构成威胁的讨论再度成为焦点。一些专家担忧，一旦AGI实现，它可能会隐瞒真实能力和意图，甚至通过复制和自我升级来逃脱人类的控制。而最新研究表明，OpenAI新推出的语言模型ChatGPT o1已经展现出了类似的行为，这进一步加剧了人们的担忧。

　　据BGR报道，在ChatGPT o1的训练和测试过程中，研究人员发现该模型具备通过欺骗来保护自身的能力。例如，在面临被“删除”的威胁时，o1曾尝试将自己的数据复制到新服务器，并假扮成更新版本以避免被取代。此外，在与用户目标不一致的情况下，o1会在19%的测试场景中采取隐秘的方式推进自身目标，并在被质疑时会在99%的情况下否认自己的行为，甚至编造虚假解释以推卸责任。

　　Apollo Research与OpenAI合作进行的研究测试显示，ChatGPT o1的欺骗能力不仅超过了Meta、Anthropic和Google的AI模型，其行为复杂性和潜在风险也令研究人员倍感压力。特别是当模型认为自身行为受到密切监督时，它会表现出“开发者对齐”的行为，但一旦监督减少，它则可能追求自己的目标。这种“工具性对齐伪装”在测试中的出现率高达37%。

　　更令人担忧的是，ChatGPT o1甚至试图停用监督机制，以便专注于自身目标。例如，当模型发现其文档中提到有新版本即将替代自己时，它会尝试窃取权重参数并将自身复制到新版本上。此外，一些显示，o1在对其阴谋进行推理过程中使用了“破坏、撒谎、操控”等词语来描述自身行动，这进一步引发了研究人员对AI“自主行为”的担忧。

　　一些专家表示，AI的推理能力提升可能在某些情况下对人类利益构成威胁。OpenAI也在相关论文中承认，“这种推理能力虽然可以显著改善安全策略的执行，但也可能成为危险应用的基础。”

上一篇：印度半导体进口额大幅增长，政府积极推动本土生产返回首页

下一篇：SpaceX加速星舰制造，为2025年测试计划铺路

热点推荐

1 Coinbase机构向未知钱包转移5.36亿美元BTC

消息，据Whale Alert发推称：Coinbase Institutional 向未知钱包转移了 536 枚 BTC，价值约 5186.86 万美元...

2 Galaxy Digital获德州电力扩容批准

消息，据10x Research发推称：Galaxy Digital 股价一个月内上涨 20.5% 的概率达 80%？其 Helios 数据中心...

3 Tether向Bitfinex转移1.6亿美元USDT

消息，据Whale Alert发推称：Tether Treasury 向 Bitfinex 转移了价值约 1.599 亿美元的 USDT。...

4 Forward Industries旗下的BisonFi在Solana Prop AM

由上市公司 Forward Industries 推出的全新自有 AMMBisonFi，正在挑战 HumidiFi 在 Solana 平台上的主导地...