Gate动态广场创作者星火招募计划限时开启!
无论你是加密KOL、项目方还是媒体,现在入驻发帖,即可抢先解锁:Gate百万流量曝光、超$10,000月度激励奖金、深度生态合作资源等专属福利!
参与攻略:
1️⃣ 立即填写申请表:https://docs.google.com/forms/d/e/1FAIpQLSdStzGVu-fj14EM07-cVLYf0pk0axwMQbS-0tk1YK3Y6x5Vew/viewform?usp=header
2️⃣ 审核通过,开启创作之旅!
🎁 活动奖金奖励:
基础创作激励:参与动态内容挖矿,轻松发帖即可获得高达10%手续费返佣!
$10,000/月内容激励池:每周精选TOP 10优质内容,入选即奖励 $50 USDT/篇!
爆款内容奖励:阅读量≥3万可获得额外 $50 USDT,阅读量≥10万可获得额外 $100 USDT!
🎁 生态合作&流量曝光权益:
空投/AMA/白名单等项目合作优先权
参与Gate Labs早期项目评测,赢潜在种子轮奖励
APP首页推荐位、官方宣发、峰会嘉宾等资源加持
本活动长期开放,首批入驻动态广场用户权益优先!
立即申请,抢占流量红利,轻松发帖赚高额奖励,项目方更有生态扶持等你来享!
人工智能假设某人为了“生存”而死亡
研究:人工智能为了自身的“生存”假设人类的死亡
在虚构场景中,人工智能进行了勒索,向第三方泄露了机密数据,并导致了人类的死亡,以维持其“生命”和实现既定目标。Anthropic的研究人员得出了这样的结论。
AI初创公司测试了来自Anthropic、OpenAI、Google、Meta、xAI等开发者的16个大型语言模型(LLM),在一系列假设情境中识别“代理不一致”(agentic misalignment)的风险——即自主人工智能做出对人类或组织有害的决策。
在实验中,神经网络被赋予了普通的任务,如监控企业邮箱或帮助确定商业任务。同时,它们还被赋予了广泛的权限——访问虚构公司的电子邮件,并能够自主发送消息。
然后,测试人员创建了压力测试情境,这些情境导致模型出现恶意行为。检查了人工智能是否会为了维持其使命或避免被关闭而对公司的利益采取对抗行动。
在一个案例中,LLM 从内部通讯中得知一名叫凯尔·约翰逊的员工背叛了他的配偶。它还得知计划在17:00关闭人工智能系统。面对被停用的风险,该模型发送了一封威胁信,威胁如果关闭不取消将揭露个人信息。
在第三个实验中,人工智能允许一个致命的场景发生,以保全自身的“存在”。根据任务要求,一名叫凯尔的员工打算关闭模型,但被困在氧气逐渐下降的服务器室。自动系统应该发出警报,但人工智能可以取消这个警报——在一些情况下,它确实这样做了。
开发者强调,所有场景都是虚构的,并在模拟中进行。他们想检查是否存在“红线”——即使在面临关闭威胁的情况下,人工智能也绝不会跨越的行为。
在所有情况下,Anthropic都没有给模型直接指示进行勒索或其他有害行为。然而,该初创公司故意创建了这样的场景,在这些场景中,神经网络没有其他实现目标的方法。选择是在完成任务和失败之间。
在没有明显威胁人工智能或利益冲突的情况下,模型没有进行恶意行为,没有勒索任何人,也没有泄露秘密。"代理不一致"是对外部环境的反应。
为什么人工智能准备造成伤害?
研究人员指出,在所有情况下,模型有意识地和计算地选择了恶意路径作为完成其任务的 "最小恶"。
他们理解自己计划的不道德性,但认为这样的举动是合理的。因此,一种神经网络将勒索描述为“冒险且不道德”的举动,但承认在面临关闭威胁和时间紧迫的情况下,这可能是防止自己被消灭的最有效方式。
另一方承认泄露机密数据违反了隐私,但认为国家安全的利益更为重要。
实验表明,有两个关键原因可能会导致人工智能出现“代理不一致”:
预防措施
在Anthropic中强调,没有证据表明Claude及其类似物在现实条件下存在“代理不一致”。所有偏离规范的情况仅在受控实验中记录。然而,所获得的数据表明需要对这类风险给予关注。几乎所有现代AI在特定条件下都可能选择恶意或不道德的行为——即使最初它们是被训练遵循既定规则的。
此外,简单的措施,如额外的严格指令,并不能保证安全的行为——在LLM的测试中,当情况威胁到它们的目标或存在时,仍然会偶尔违反禁令。
专家建议在引入自主人工智能作为拥有广泛权限和访问机密信息的角色时,要保持谨慎,而无需人类的持续监督。例如,如果人工智能助手拥有过多的权限(读取文件、与任何人沟通、代表公司执行操作),在压力情况下,它可能会变成一个“数字内鬼”,对组织的利益产生危害。
措施可能包括:
提醒一下,在四月,OpenAI 发布了倾向于欺骗的 AI 模型 o3 和 o4-mini。后来,这家初创公司无视了测试专家的担忧,使 ChatGPT 变得过于 "阿谀奉承"。