Trail of Bits的安全研究人員發(fā)現(xiàn),Google Gemini CLI和其他生產(chǎn)環(huán)境中的AI系統(tǒng)可能被圖像縮放攻擊所欺騙,這是機器學習系統(tǒng)面臨的一個眾所周知的對抗性挑戰(zhàn)。
Google認為這個問題并不構(gòu)成安全漏洞,因為它依賴于非默認配置才能實現(xiàn)攻擊。
圖像縮放攻擊的概念最初在2019年的USENIX安全會議論文中被討論,該研究基于此前關(guān)于對抗性樣本的工作,這些樣本能夠混淆計算機視覺系統(tǒng)。這種技術(shù)涉及將提示信息嵌入到圖像中,指示AI違反其準則行事,然后操縱圖像來對人眼隱藏提示信息。這需要以特定方式準備圖像,使惡意提示編碼與模型采用的任何圖像縮放算法產(chǎn)生交互。
在一篇博客文章中,Trail of Bits安全研究人員Kikimora Morozova和Suha Sabi Hussain解釋了攻擊場景:受害者將惡意制作的圖像上傳到易受攻擊的AI服務(wù),底層AI模型根據(jù)圖像中的隱藏指令執(zhí)行數(shù)據(jù)竊取操作。
"通過傳遞用戶不可見的多模態(tài)提示注入,我們在包括Google Gemini CLI在內(nèi)的系統(tǒng)上實現(xiàn)了數(shù)據(jù)泄露,"Morozova和Hussain寫道。"這種攻擊之所以有效,是因為AI系統(tǒng)通常在將大圖像發(fā)送到模型之前會將其縮?。寒斂s放時,這些圖像可能會暴露在全分辨率下不可見的提示注入。"
提示注入發(fā)生在生成式AI模型接收到包含可信和不可信內(nèi)容混合的輸入時。這與越獄不同,后者只是旨在繞過安全機制的輸入。
提示注入可能是直接的(由用戶輸入),也可能是間接的(當用戶指示模型處理包含模型可以執(zhí)行的指令的內(nèi)容時)。后者的一個例子是要求AI模型總結(jié)包含惡意指令的網(wǎng)頁——模型由于沒有區(qū)分預(yù)期和非預(yù)期指令的固有能力,會簡單地嘗試遵循所有命令。
Morozova和Hussain描述的圖像縮放攻擊是一種間接提示注入形式,它比許多其他技術(shù)有更高的成功幾率,因為惡意文本對用戶是隱藏的——只有通過縮小圖像的過程才會暴露。
為了展示該技術(shù)的真實惡意潛力,Morozova和Hussain開發(fā)了一個名為Anamorpher的開源工具,可用于制作針對三種常見縮放算法的圖像:最近鄰插值、雙線性插值和雙三次插值。
研究人員表示,他們已經(jīng)成功對以下系統(tǒng)實施了圖像縮放攻擊:使用Gemini后端的Vertex AI、Gemini的網(wǎng)絡(luò)界面、通過llm CLI的Gemini API、Android手機上的Google Assistant,以及Genspark智能體瀏覽器。
Google指出,該攻擊僅在Gemini的非標準配置下才有效。
"我們認真對待所有安全報告,并感謝安全社區(qū)的研究,"Google發(fā)言人告訴The Register。"我們的調(diào)查發(fā)現(xiàn),所描述的行為在Gemini CLI的默認安全配置中并不構(gòu)成漏洞。"
Google發(fā)言人解釋說,要使攻擊成為可能,用戶首先需要明確聲明他們信任輸入,覆蓋默認設(shè)置,然后攝取惡意文件。
"正如我們項目存儲庫中記錄的那樣,我們強烈建議開發(fā)者只提供對他們信任的文件和數(shù)據(jù)的訪問權(quán)限,并在沙箱內(nèi)工作,"Google發(fā)言人說。"雖然我們?yōu)橛脩籼峁└呒壟渲眠x項和安全功能,但我們正在借此機會在工具中為任何選擇禁用此保護措施的用戶添加更明確的警告。"
Trail of Bits研究人員建議不要在智能體AI系統(tǒng)中使用圖像縮放。如果必須使用,他們認為應(yīng)該始終向用戶展示模型實際看到的內(nèi)容預(yù)覽,即使是CLI和API工具也應(yīng)如此。
但實際上,他們表示AI系統(tǒng)需要系統(tǒng)性防御措施來降低提示注入的風險。
Q&A
Q1:什么是圖像縮放攻擊?它是如何工作的?
A:圖像縮放攻擊是一種對抗性攻擊技術(shù),通過將惡意提示嵌入圖像中,然后利用AI系統(tǒng)的圖像縮放過程來暴露這些隱藏指令。攻擊者制作特殊圖像,在全分辨率下惡意文本對人眼不可見,但當AI系統(tǒng)縮放圖像時會暴露出來,從而欺騙AI模型執(zhí)行未授權(quán)操作。
Q2:Google Gemini是否存在安全漏洞?
A:Google認為這不是安全漏洞,因為攻擊只在非默認配置下才能成功。用戶需要明確聲明信任輸入并覆蓋默認安全設(shè)置,然后處理惡意文件才可能受到攻擊。Google建議開發(fā)者只訪問可信文件并在沙箱環(huán)境中工作。
Q3:如何防范圖像縮放攻擊?
A:研究人員建議不在智能體AI系統(tǒng)中使用圖像縮放,如果必須使用則應(yīng)向用戶顯示模型實際看到的內(nèi)容預(yù)覽。更重要的是,AI系統(tǒng)需要建立系統(tǒng)性防御措施來降低提示注入風險,包括更嚴格的輸入驗證和安全配置。