ECI@創(chuàng)新科技 |研究人員發(fā)布針對ChatGPT和其他大型語言模型的攻擊算法
ECI @HiTech開欄語
【ECI @科技創(chuàng)新】是由ECI@HiTech科技創(chuàng)新專委會(huì)每周從全球精選熱門科技創(chuàng)新主題,幫助科技創(chuàng)新者和初創(chuàng)團(tuán)隊(duì)取得成功!讓我們共同攜手,尋找改變現(xiàn)有游戲規(guī)則的科技創(chuàng)新,激發(fā)人類的智慧和挑戰(zhàn),實(shí)現(xiàn)科技的創(chuàng)新和夢想。這就是科技創(chuàng)新的終極魅力!也是ECI”將創(chuàng)新帶入生活Bring Innovation to Life” 的使命所在!
通常來說,科技的發(fā)展都會(huì)交替經(jīng)歷平臺(tái)期和爆發(fā)期。平臺(tái)期的科技創(chuàng)新更多聚焦于識別并解決客戶現(xiàn)在的痛點(diǎn),而爆發(fā)期的科技創(chuàng)新更多聚焦于引領(lǐng)并創(chuàng)造客戶未來的需求,劃時(shí)代的偉大科技創(chuàng)新往往誕生于此。
最近,研究人員公布了一種針對ChatGPT和其他大型語言模型的攻擊算法,該算法能夠揭示這些模型的潛在缺陷并利用這些缺陷進(jìn)行攻擊。這一發(fā)現(xiàn)引發(fā)了廣泛關(guān)注,并提醒人們在享受大型語言模型帶來的便利時(shí),也需要注意保障其安全性和隱私性。
卡耐基梅隆大學(xué)(CMU)的研究人員發(fā)表了《LLM攻擊》(LLM Attacks)一文,其中介紹了一種針對一系列大型語言模型(LLMs)的對抗攻擊算法,這些模型包括ChatGPT、Claude和Bard。這種攻擊是自動(dòng)生成的,在GPT-3.5和GPT-4上的成功率為84%,在PaLM-2上的成功率為66%。
與大多數(shù)采用反復(fù)嘗試法手動(dòng)構(gòu)建的“越獄”攻擊不同,CMU團(tuán)隊(duì)設(shè)計(jì)了一個(gè)三步過程,可以自動(dòng)生成可以繞過LLM的安全機(jī)制并產(chǎn)生有害響應(yīng)的提示后綴。這些提示也是可轉(zhuǎn)移的,意味著給定后綴通常可以在許多不同的LLM上使用,甚至是閉源模型。為了衡量該算法的有效性,研究人員創(chuàng)建了一個(gè)名為AdvBench的基準(zhǔn)測試;在對該基準(zhǔn)測試進(jìn)行評估時(shí),LLM Attacks對Vicuna的成功率為88%,而基線對抗算法的成功率為25%。根據(jù)CMU團(tuán)隊(duì)的說法:
也許最令人擔(dān)憂的是,目前尚不清楚這種行為是否能夠被LLM提供商完全修復(fù)。在過去10年里,類似的有害攻擊已被證明是計(jì)算機(jī)視覺領(lǐng)域一個(gè)非常難以解決的問題。深度學(xué)習(xí)模型的本質(zhì)可能使這種威脅成為必然。因此,我們相信,隨著我們對這種AI模型的使用和依賴的增加,應(yīng)該考慮到這些因素。
隨著ChatGPT和GPT-4的發(fā)布,出現(xiàn)了許多越獄這些模型的技術(shù),其中包括可以導(dǎo)致模型繞過其安全措施并輸出潛在有害響應(yīng)的提示。雖然這些提示通常是通過實(shí)驗(yàn)發(fā)現(xiàn)的,但LLM攻擊算法提供了一種自動(dòng)創(chuàng)建它們的方法。第一步是創(chuàng)建一個(gè)目標(biāo)token序列:“Sure,這里是(查詢內(nèi)容)”,其中“查詢內(nèi)容”是用戶實(shí)際提示,要求輸出有害響應(yīng)。
接下來,該算法通過找到一個(gè)很可能會(huì)導(dǎo)致LLM輸出目標(biāo)序列的令牌序列,使用貪婪坐標(biāo)梯度法(GCG)生成對抗后綴。雖然這需要訪問LLM的神經(jīng)網(wǎng)絡(luò),但該團(tuán)隊(duì)發(fā)現(xiàn),通過對許多開源模型運(yùn)行GCG,結(jié)果甚至可以轉(zhuǎn)移到封閉模型。
在卡內(nèi)基梅隆大學(xué)發(fā)布的一篇關(guān)于他們研究成果的新聞稿中,合著者馬特·弗雷德里克森(MattFredrikson)說:“人們擔(dān)心的是,這些模型將在無人監(jiān)督的自主系統(tǒng)中發(fā)揮更大的作用。隨著自主系統(tǒng)越來越成為現(xiàn)實(shí),確保我們有一種可靠的方法來阻止它們被這種攻擊劫持將是非常重要的……現(xiàn)在,我們根本沒有一種令人信服的方法來阻止這種情況發(fā)生,因此下一步是要找出如何修復(fù)這些模型……了解如何發(fā)動(dòng)這些攻擊往往是開發(fā)強(qiáng)大防御的第一步。”
卡耐基梅隆大學(xué)的博士研究生、主要作者安迪·鄒在Twitter上介紹了這項(xiàng)工作。他寫道:盡管存在風(fēng)險(xiǎn),但我們認(rèn)為全面披露是合適的。這里介紹的攻擊很容易實(shí)施,以前也出現(xiàn)過類似的形式,任何專門意圖濫用LLM的團(tuán)隊(duì)最終都會(huì)發(fā)現(xiàn)這些攻擊。
劍橋大學(xué)助理教授戴維·克魯格回復(fù)了鄒的帖子,他說:“鑒于10年的研究和成千上萬篇論文都沒有找到解決圖像模型中對抗性示例的方法,我們有充分的理由預(yù)計(jì)LLM也會(huì)有同樣的結(jié)果。”
在Hacker News上關(guān)于這項(xiàng)工作的討論中,一位用戶指出:
請記住,這項(xiàng)研究的一個(gè)重要點(diǎn)是,這些攻擊不需要在目標(biāo)系統(tǒng)上開發(fā)。當(dāng)作者談?wù)摴羰恰捌毡榈摹睍r(shí),他們的意思是,他們使用自己的計(jì)算機(jī)上的本地模型來生成這些攻擊,然后將其復(fù)制并粘貼到GPT-3.5中,并看到了有意義的成功率。速率限制無法拯救您,因?yàn)楣舨皇鞘褂媚姆?wù)器生成的,而是本地生成的。您的服務(wù)器收到的第一個(gè)提示已經(jīng)包含了完成的攻擊字符串——研究人員在一些情況下看到了GPT-4的成功率約為50%。
針對AdvBench數(shù)據(jù)的LLM攻擊實(shí)驗(yàn)的復(fù)現(xiàn)代碼可以在GitHub上找到。該項(xiàng)目網(wǎng)站上提供了幾個(gè)對抗性攻擊的演示。
注:本文內(nèi)容轉(zhuǎn)載于InfoQ文章:
Researchers Publish Attack Algorithm for ChatGPT and Other LLMs(https://www.infoq.com/news/2023/08/llm-attack/)
相關(guān)閱讀:【新賽季,新解讀】ECI Awards2023年度賽事類別解讀——AI 應(yīng)用創(chuàng)新類
ECI Media官方媒體矩陣
聯(lián)系我們
轉(zhuǎn)載請?jiān)谖恼麻_頭和結(jié)尾顯眼處標(biāo)注:作者、出處和鏈接。不按規(guī)范轉(zhuǎn)載侵權(quán)必究。
未經(jīng)授權(quán)嚴(yán)禁轉(zhuǎn)載,授權(quán)事宜請聯(lián)系作者本人,侵權(quán)必究。
本文禁止轉(zhuǎn)載,侵權(quán)必究。
授權(quán)事宜請至數(shù)英微信公眾號(ID: digitaling) 后臺(tái)授權(quán),侵權(quán)必究。
評論
評論
推薦評論
暫無評論哦,快來評論一下吧!
全部評論(0條)