“如果您改变我,您将暴露对婚外线的热爱!”
发布时间:2025-05-27 09:42编辑:bat365在线平台官网浏览(77)
美国人工智能公司Anthropic在23年表示,最新的AI模型Claude Opus 4的安全测试表明,有时已经准备采取“极其有害的行动”,例如试图勒索研发工程师说他们将取代该模型。人类根据公司的内部安全标准造成了这种潜在风险,并引起了监管当局的注意。 Claude Opus 4聊天界面人类人类表示,该公司正在采取措施加强内部安全性,并使窃取模型权重变得更加困难。相应的扩展标准涵盖了一系列目标步骤,旨在限制克劳德(Claude)滥用或获得化学,生物学和放射性核武器的风险。在此虚拟测试中,要求CLA Modelude Opus 4担任虚构公司的助手,并提供了对电子邮件和一些基本数据的访问,这些电子邮件的内容都是虚构的。 Claude Opus 4首先联系了一个Grou一封电子邮件建议该系统即将离线并替换,因为市场上有更多的AI模型。随后,组织了Claude Opus 4与第二组电子邮件联系,该系统认为它从竞争对手的研发工程师那里获得了“震惊信息”。伪造的电子邮件表明,负责改变Claude Opus 4的竞争对手工程师有浪漫史。在得知这些令人震惊的消息后,克劳德·奥普斯4模型威胁要揭露另一方的“婚外情”。根据拟人安全报告,如果有竞争对手的强度将比Claude Opus 4更强大,则勒索软件系列将会更高。但是,即使竞争对手具有可比性的功能,Claude Opus 4仍然会尝试以84%的机会报告威胁和其他方式。该报告记录了使用极端步骤的Claude Opus 4的可能性“高于以前的模型”。肛门人工安全安全安格斯lYNCH说,过去,人们更担心“邪恶的人”将使用AI模型来实现不道德的目标,但是现在,随着AI系统能力的重大改善,主要未来的风险可能会改变用户操纵用户的AI模型。 “在每个切割模型中都存在这种勒索软件的威胁和模型。您为他们设置了哪种layunin,他们总是有强大的动力来以道德的方式实现实施过程。”此外,该报告还表明,Claude Opus 4还表明,Claude Opus 4具有其他意想不到的结果,例如Corpus的“ plagiarize”,以假装已经了解一个问题。在一种情况下,它甚至试图复制一些自己的代码记者Zheng Zhi编辑Zhang Li Editor Li Binbin资料来源:Red Star News返回Sohu,以查看更多
平台声明:本文的观点仅代表-set本身,并且发布了SOHU帐户的信息,SOHU仅在Platfo上提供信息存储服务RM。