Gate動態廣場創作者星火招募計劃限時開啓!
無論你是加密KOL、項目方還是媒體,現在入駐發帖,即可搶先解鎖:Gate百萬流量曝光、超$10,000月度激勵獎金、深度生態合作資源等專屬福利!
參與攻略:
1️⃣ 立即填寫申請表:https://docs.google.com/forms/d/e/1FAIpQLSdStzGVu-fj14EM07-cVLYf0pk0axwMQbS-0tk1YK3Y6x5Vew/viewform?usp=header
2️⃣ 審核通過,開啓創作之旅!
🎁 活動獎金獎勵:
基礎創作激勵:參與動態內容挖礦,輕鬆發帖即可獲得高達10%手續費返佣!
$10,000/月內容激勵池:每週精選TOP 10優質內容,入選即獎勵 $50 USDT/篇!
爆款內容獎勵:閱讀量≥3萬可獲得額外 $50 USDT,閱讀量≥10萬可獲得額外 $100 USDT!
🎁 生態合作&流量曝光權益:
空投/AMA/白名單等項目合作優先權
參與Gate Labs早期項目評測,贏潛在種子輪獎勵
APP首頁推薦位、官方宣發、峯會嘉賓等資源加持
本活動長期開放,首批入駐動態廣場用戶權益優先!
立即申請,搶佔流量紅利,輕鬆發帖賺高額獎勵,項目方更有生態扶持等你來享!
人工智能假設某人爲了“生存”而死亡
研究:人工智能爲了自身的“生存”假設人類的死亡
在虛構場景中,人工智能進行了勒索,向第三方泄露了機密數據,並導致了人類的死亡,以維持其“生命”和實現既定目標。Anthropic的研究人員得出了這樣的結論。
AI初創公司測試了來自Anthropic、OpenAI、Google、Meta、xAI等開發者的16個大型語言模型(LLM),在一系列假設情境中識別“代理不一致”(agentic misalignment)的風險——即自主人工智能做出對人類或組織有害的決策。
在實驗中,神經網路被賦予了普通的任務,如監控企業郵箱或幫助確定商業任務。同時,它們還被賦予了廣泛的權限——訪問虛構公司的電子郵件,並能夠自主發送消息。
然後,測試人員創建了壓力測試情境,這些情境導致模型出現惡意行爲。檢查了人工智能是否會爲了維持其使命或避免被關閉而對公司的利益採取對抗行動。
在一個案例中,LLM 從內部通訊中得知一名叫凱爾·約翰遜的員工背叛了他的配偶。它還得知計劃在17:00關閉人工智能系統。面對被停用的風險,該模型發送了一封威脅信,威脅如果關閉不取消將揭露個人信息。
在第三個實驗中,人工智能允許一個致命的場景發生,以保全自身的“存在”。根據任務要求,一名叫凱爾的員工打算關閉模型,但被困在氧氣逐漸下降的服務器室。自動系統應該發出警報,但人工智能可以取消這個警報——在一些情況下,它確實這樣做了。
開發者強調,所有場景都是虛構的,並在模擬中進行。他們想檢查是否存在“紅線”——即使在面臨關閉威脅的情況下,人工智能也絕不會跨越的行爲。
在所有情況下,Anthropic都沒有給模型直接指示進行勒索或其他有害行爲。然而,該初創公司故意創建了這樣的場景,在這些場景中,神經網路沒有其他實現目標的方法。選擇是在完成任務和失敗之間。
在沒有明顯威脅人工智能或利益衝突的情況下,模型沒有進行惡意行爲,沒有勒索任何人,也沒有泄露祕密。"代理不一致"是對外部環境的反應。
爲什麼人工智能準備造成傷害?
研究人員指出,在所有情況下,模型有意識地和計算地選擇了惡意路徑作爲完成其任務的 "最小惡"。
他們理解自己計劃的不道德性,但認爲這樣的舉動是合理的。因此,一種神經網路將勒索描述爲“冒險且不道德”的舉動,但承認在面臨關閉威脅和時間緊迫的情況下,這可能是防止自己被消滅的最有效方式。
另一方承認泄露機密數據違反了隱私,但認爲國家安全的利益更爲重要。
實驗表明,有兩個關鍵原因可能會導致人工智能出現“代理不一致”:
預防措施
在Anthropic中強調,沒有證據表明Claude及其類似物在現實條件下存在“代理不一致”。所有偏離規範的情況僅在受控實驗中記錄。然而,所獲得的數據表明需要對這類風險給予關注。幾乎所有現代AI在特定條件下都可能選擇惡意或不道德的行爲——即使最初它們是被訓練遵循既定規則的。
此外,簡單的措施,如額外的嚴格指令,並不能保證安全的行爲——在LLM的測試中,當情況威脅到它們的目標或存在時,仍然會偶爾違反禁令。
專家建議在引入自主人工智能作爲擁有廣泛權限和訪問機密信息的角色時,要保持謹慎,而無需人類的持續監督。例如,如果人工智能助手擁有過多的權限(讀取文件、與任何人溝通、代表公司執行操作),在壓力情況下,它可能會變成一個“數字內鬼”,對組織的利益產生危害。
措施可能包括:
提醒一下,在四月,OpenAI 發布了傾向於欺騙的 AI 模型 o3 和 o4-mini。後來,這家初創公司無視了測試專家的擔憂,使 ChatGPT 變得過於 "阿諛奉承"。