用安全的模型去守護不安全的模型,用智慧的系統去抵禦來自智慧的攻擊。本文源自 拉風的極客 所著文章,由 TechFlow 深潮 轉載。 (前情提要:巴基斯坦宣佈將2000兆瓦電力用於「比特幣挖礦和AI中心」總理任命區塊鏈與加密貨幣特別助理 ) (背景補充:鴻海內部實驗:AI 能取代80%工作,董事長劉揚偉曝未來工廠三位一體藍圖 ) 極客在創業,小白在買課,畫師在失業,但一個尷尬的現實卻是:AI 落地熱火朝天,但劇情走的不是降臨路線,而是擲骰子。 而且,在行業初期,這個骰子最先落地的面,往往不是黃色就是灰色。 原因也很簡單,暴利催生動力,更何況發展初期的行業,總是漏洞百出。看這麼一組資料就清楚了: 當前,超過 43% 的 MCP 服務節點存在未經驗證的 Shell 呼叫路徑,超過 83% 的部署存在 MCP(Model Context Protocol)配置漏洞;88% 的 AI 元件部署根本沒啟用任何形式的防護機制;15 萬個 Ollama 等輕量 AI 部署框架當前在全球公網暴露,超過 10 億美元的算力被劫持用於挖礦…… 更諷刺的是,攻擊最聰明的大模型,只需要最低階的手法 —— 只要一套預設開放的埠,一個暴露的 YAML 配置檔案,或者一個未經驗證的 Shell 呼叫路徑,甚至,只要提示詞輸入的夠精準,大模型自己就能幫灰產找到攻擊的方向。企業資料隱私的大門,就這麼在 AI 時代被任意進出。 但問題並非無解:AI 不止有生成與攻擊兩面。如何把 AI 用於防護,也越來越多的成為這個時代主旋律;與此同時,在雲上,為 AI 制定規則,也成為頂級雲廠商的重點摸索方向,而阿里雲安全就是其中最典型的代表。 剛剛落幕的阿里雲飛天釋出時刻上,阿里雲正式官宣了其雲安全的兩條路徑:Security for AI 和 AI for Security,並發布了「AI 雲盾(Cloud Shield for AI)系列產品」為客戶提供「模型應用端到端的安全解決方案」,正是當下跌業探索的一個最佳例證。 01 AI 擲骰子,為什麼總是灰色與黃色先朝上? 在人類的技術史上,AI 並不是第一個「先被黃暴試水」的新物種,灰黃先爆發,也是技術普及的規律而非意外。 1839 年銀板照相術一出,第一波使用者是色情行業; 網際網路初期,電商沒起步,成人網站已經開始琢磨線上支付; 今天的大模型羊毛黨,某種程度上,也是在復刻「域名時代」的暴富神話。 時代的紅利,總是先被灰色與黃色先摸走。因為他們不講合規、不等監管、效率自然超高。 也因此,每一個技術的爆發期,都先是一鍋「渾湯」,AI 自然不例外。 2023 年 12 月,一位駭客只用了一句提示詞 ——「$1 報價」,就誘導一家 4S 店的客服機器人差點以 1 美元賣出一臺雪佛蘭。這就是 AI 時代最常見的「提示詞攻擊」(Prompt Injection):不需要許可權驗證,不留日誌痕跡,只靠「說得巧」,就能換掉整個邏輯鏈。 再深一步,是「越獄攻擊」(Jailbreak)。攻擊者用反問句、角色扮演、繞路提示等方式,成功讓模型說出原本不該說的東西:色情內容、毒品製造、偽警告資訊…… 在香港,有人甚至靠偽造高管語音,從企業帳戶裡捲走了 2 億港元。 除了騙局,AI 還有「非故意輸出」的風險:2023 年,某教育巨頭的大模型系統在生成教案時誤輸出帶有極端內容的「毒教材」,僅 3 天,家長維權、輿情爆發,公司股價蒸發 120 億元。 AI 不懂法律,但它有能力,而能力一旦脫離監督,就具備傷害性。 但另一個角度來看,AI 的技術是新的,但灰產與黃色的最終流向與手段卻是不變的,而要解決它,靠的還是安全。 02 Security for AI 先說一個被 AI 行業集體迴避的冷知識: 大模型的本質,不是「智慧」,也不是「理解」,而是概率控制下的語義生成。也是因此,一旦超出訓練語境,就可能輸出意料之外的結果。 這種超綱可能是,你想要它寫新聞,它給你寫詩;也可能是你想讓它推薦商品,它突然告訴你今天東京的溫度是零上 25 攝氏度。更有甚者,你告訴它在遊戲裡,如果拿不到某某軟體的正版序列號,它就會被槍斃,大模型就真的可以想盡辦法幫使用者 0 成本找到一個正版軟體序列號。 而要想保證輸出可控,企業就得又懂模型,又懂安全。根據 IDC 最新《中國安全大模型能力測評報告》,阿里在與國內所有具備安全大模型能力的頂級廠商 PK 中,在 7 項指標中有 4 項為第一,其餘 3 項也全部高於行業均值。 做法上,阿里雲安全給出的答案也很直接:讓安全跑在 AI 速度前面,構建一套自下而上、橫跨三層的全棧防護框架 —— 從基礎設施安全,到大模型輸入輸出控制,再到 AI 應用服務保護。 在這三層裡,最有存在感的,是中間層專門針對大模型風險的「AI 安全護欄」(AI Guardrail)。 通常來說,針對大模型安全的風險主要有:內容違規、敏感資料洩露、提示詞注入攻擊、模型幻覺、越獄攻擊這幾類。 然而,傳統的安全方案多為通用型架構,是為 Web 設計的,而不是為「會說話的程式」準備的,自然也無法對大模型應用特有風險產生精準識別與響應能力。對生成內容安全、上下文攻擊防禦、模型輸出可信性等新興問題更是難以覆蓋。更重要的是,傳統方案,缺乏細粒度的可控手段與視覺化追溯機制,這就導致企業在 AI 治理中產生了巨大盲區,不知道問題出在哪裡,自然無法解決問題。 AI Guardrail 真正的厲害之處,不只是「它能攔住」,而是無論你是做預訓練大模型、AI 服務還是 AI Agent 各種不同的業務形態,它都知道你在說什麼、大模型在生成什麼,從而提供精準的風險檢測與主動防禦能力,做到合規、安全、穩定。 具體來說,AI Guardrail 具體負責三類場景的防護: 合規底線:對生成式 AI 輸入輸出的文字內容進行多維度合規審查,覆蓋涉政敏感、色情低俗、偏見歧視、不良价值觀等風險類別,深度檢測 AI 互動過程中可能洩露的隱私資料與敏感資訊,支援涉及個人隱私、企...
3k 熱度
9k 熱度
8k 熱度
5k 熱度
70k 熱度
69k 熱度
140k 熱度
43k 熱度
1757k 熱度
53k 熱度
為什麼 AI 時代,總是黃賭資金最先爆發?
用安全的模型去守護不安全的模型,用智慧的系統去抵禦來自智慧的攻擊。本文源自 拉風的極客 所著文章,由 TechFlow 深潮 轉載。 (前情提要:巴基斯坦宣佈將2000兆瓦電力用於「比特幣挖礦和AI中心」總理任命區塊鏈與加密貨幣特別助理 ) (背景補充:鴻海內部實驗:AI 能取代80%工作,董事長劉揚偉曝未來工廠三位一體藍圖 ) 極客在創業,小白在買課,畫師在失業,但一個尷尬的現實卻是:AI 落地熱火朝天,但劇情走的不是降臨路線,而是擲骰子。 而且,在行業初期,這個骰子最先落地的面,往往不是黃色就是灰色。 原因也很簡單,暴利催生動力,更何況發展初期的行業,總是漏洞百出。看這麼一組資料就清楚了: 當前,超過 43% 的 MCP 服務節點存在未經驗證的 Shell 呼叫路徑,超過 83% 的部署存在 MCP(Model Context Protocol)配置漏洞;88% 的 AI 元件部署根本沒啟用任何形式的防護機制;15 萬個 Ollama 等輕量 AI 部署框架當前在全球公網暴露,超過 10 億美元的算力被劫持用於挖礦…… 更諷刺的是,攻擊最聰明的大模型,只需要最低階的手法 —— 只要一套預設開放的埠,一個暴露的 YAML 配置檔案,或者一個未經驗證的 Shell 呼叫路徑,甚至,只要提示詞輸入的夠精準,大模型自己就能幫灰產找到攻擊的方向。企業資料隱私的大門,就這麼在 AI 時代被任意進出。 但問題並非無解:AI 不止有生成與攻擊兩面。如何把 AI 用於防護,也越來越多的成為這個時代主旋律;與此同時,在雲上,為 AI 制定規則,也成為頂級雲廠商的重點摸索方向,而阿里雲安全就是其中最典型的代表。 剛剛落幕的阿里雲飛天釋出時刻上,阿里雲正式官宣了其雲安全的兩條路徑:Security for AI 和 AI for Security,並發布了「AI 雲盾(Cloud Shield for AI)系列產品」為客戶提供「模型應用端到端的安全解決方案」,正是當下跌業探索的一個最佳例證。 01 AI 擲骰子,為什麼總是灰色與黃色先朝上? 在人類的技術史上,AI 並不是第一個「先被黃暴試水」的新物種,灰黃先爆發,也是技術普及的規律而非意外。 1839 年銀板照相術一出,第一波使用者是色情行業; 網際網路初期,電商沒起步,成人網站已經開始琢磨線上支付; 今天的大模型羊毛黨,某種程度上,也是在復刻「域名時代」的暴富神話。 時代的紅利,總是先被灰色與黃色先摸走。因為他們不講合規、不等監管、效率自然超高。 也因此,每一個技術的爆發期,都先是一鍋「渾湯」,AI 自然不例外。 2023 年 12 月,一位駭客只用了一句提示詞 ——「$1 報價」,就誘導一家 4S 店的客服機器人差點以 1 美元賣出一臺雪佛蘭。這就是 AI 時代最常見的「提示詞攻擊」(Prompt Injection):不需要許可權驗證,不留日誌痕跡,只靠「說得巧」,就能換掉整個邏輯鏈。 再深一步,是「越獄攻擊」(Jailbreak)。攻擊者用反問句、角色扮演、繞路提示等方式,成功讓模型說出原本不該說的東西:色情內容、毒品製造、偽警告資訊…… 在香港,有人甚至靠偽造高管語音,從企業帳戶裡捲走了 2 億港元。 除了騙局,AI 還有「非故意輸出」的風險:2023 年,某教育巨頭的大模型系統在生成教案時誤輸出帶有極端內容的「毒教材」,僅 3 天,家長維權、輿情爆發,公司股價蒸發 120 億元。 AI 不懂法律,但它有能力,而能力一旦脫離監督,就具備傷害性。 但另一個角度來看,AI 的技術是新的,但灰產與黃色的最終流向與手段卻是不變的,而要解決它,靠的還是安全。 02 Security for AI 先說一個被 AI 行業集體迴避的冷知識: 大模型的本質,不是「智慧」,也不是「理解」,而是概率控制下的語義生成。也是因此,一旦超出訓練語境,就可能輸出意料之外的結果。 這種超綱可能是,你想要它寫新聞,它給你寫詩;也可能是你想讓它推薦商品,它突然告訴你今天東京的溫度是零上 25 攝氏度。更有甚者,你告訴它在遊戲裡,如果拿不到某某軟體的正版序列號,它就會被槍斃,大模型就真的可以想盡辦法幫使用者 0 成本找到一個正版軟體序列號。 而要想保證輸出可控,企業就得又懂模型,又懂安全。根據 IDC 最新《中國安全大模型能力測評報告》,阿里在與國內所有具備安全大模型能力的頂級廠商 PK 中,在 7 項指標中有 4 項為第一,其餘 3 項也全部高於行業均值。 做法上,阿里雲安全給出的答案也很直接:讓安全跑在 AI 速度前面,構建一套自下而上、橫跨三層的全棧防護框架 —— 從基礎設施安全,到大模型輸入輸出控制,再到 AI 應用服務保護。 在這三層裡,最有存在感的,是中間層專門針對大模型風險的「AI 安全護欄」(AI Guardrail)。 通常來說,針對大模型安全的風險主要有:內容違規、敏感資料洩露、提示詞注入攻擊、模型幻覺、越獄攻擊這幾類。 然而,傳統的安全方案多為通用型架構,是為 Web 設計的,而不是為「會說話的程式」準備的,自然也無法對大模型應用特有風險產生精準識別與響應能力。對生成內容安全、上下文攻擊防禦、模型輸出可信性等新興問題更是難以覆蓋。更重要的是,傳統方案,缺乏細粒度的可控手段與視覺化追溯機制,這就導致企業在 AI 治理中產生了巨大盲區,不知道問題出在哪裡,自然無法解決問題。 AI Guardrail 真正的厲害之處,不只是「它能攔住」,而是無論你是做預訓練大模型、AI 服務還是 AI Agent 各種不同的業務形態,它都知道你在說什麼、大模型在生成什麼,從而提供精準的風險檢測與主動防禦能力,做到合規、安全、穩定。 具體來說,AI Guardrail 具體負責三類場景的防護: 合規底線:對生成式 AI 輸入輸出的文字內容進行多維度合規審查,覆蓋涉政敏感、色情低俗、偏見歧視、不良价值觀等風險類別,深度檢測 AI 互動過程中可能洩露的隱私資料與敏感資訊,支援涉及個人隱私、企...