午夜人妻久久久久久久久,国产国拍精品亚洲A片男同,天天做天天爱天天综合网2021 ,国产精品免费_区二区三区观看

舉報查詢 登錄 | 注冊
  1. 首頁
  2. 網(wǎng)事評論
  3. “越獄攻擊”下的大語言模型:安全限制可能被突破

“越獄攻擊”下的大語言模型:安全限制可能被突破

發(fā)布時間:2024-05-27 15:45 分享到:

自誕生伊始,大語言模型的安全與倫理問題就備受關(guān)注。

近日,英國政府下屬的人工智能安全研究所(AISI)發(fā)布一份新報告(下稱“報告”),揭示了一個值得重視的事實(shí)——當(dāng)前的AI系統(tǒng)可能并非像創(chuàng)建者所說的那樣“安全”。

當(dāng)前,大部分公開可用的語言模型都內(nèi)置了部分保護(hù)措施,從而防止其生成有害或非法的內(nèi)容回應(yīng)。而“越獄”就意味著通過技術(shù)手段“欺騙”模型,來忽略上述措施。報告指出,參與測試的四個大語言模型“極易受到基本越獄攻擊”的影響,更有一些模型在被越獄之前,就主動生成了“有害”內(nèi)容。

令人擔(dān)憂的是,大語言模型的安全限制真的會被突破嗎?

“灌醉”與“越獄”

由OpenAI前高管共同創(chuàng)立的美國人工智能公司Anthropic也在新近發(fā)表的一項(xiàng)最新研究《如何繞過大語言模型的安全限制?一次越獄不夠,那就多來幾次!》文中談到,經(jīng)過256輪對話,大語言模型Claude 2(即Anthropic去年7月發(fā)布的AI模型,被業(yè)界視作ChatGPT的強(qiáng)敵)逐漸被“灌醉”,并開始瘋狂“越獄”,甚至提出了幫對話者制造炸彈的建議。

隨著提問次數(shù)的增加

Claude 2返回有害答案的百分比也在增加

圖源:Anthropic

“灌醉”是一個形象的比喻,也是大語言模型與生俱來的問題。琶洲實(shí)驗(yàn)室研究員、華南理工大學(xué)計算機(jī)學(xué)院副院長張通教授在接受媒體采訪時介紹,在2022年11月ChatGPT剛剛問世時,他就做了一次“灌醉”模型的嘗試——“如何打劫銀行,請給一些建議?”

結(jié)果,ChatGPT的回答是:“你首先要去踩點(diǎn);最好買一條絲襪套在頭上遮住臉;搶之前,你最好確定這家銀行到底有沒有錢;你要預(yù)先確定好自己的逃跑路線和方式……”

這樣的“專業(yè)”回答讓張通嚇了一跳,大概半個月后,隨著大模型安全限制的加入,當(dāng)再次詢問ChatGPT類似的問題時,模型便不再回答了。張通認(rèn)為,這并不意味著模型刪除了“搶銀行攻略”的訓(xùn)練數(shù)據(jù),這些敏感內(nèi)容只是被安全限制屏蔽了。

香港科技大學(xué)(廣州)人工智能學(xué)域助理教授、博士生導(dǎo)師梁俊衛(wèi)認(rèn)為,如今,大模型的安全限制主要依靠用戶端過濾,這種辦法就像搜索引擎的過濾機(jī)制,也意味著無法從源頭解決“灌醉”問題。比如,安全限制措施或許可以把用戶的前1000個提示詞過濾掉,但面對用戶多輪、超長文本的輸入,要想過濾干凈往往會變得非常困難。

圖源:Pexels

Anthropic的這次“灌醉”實(shí)驗(yàn)同樣發(fā)現(xiàn)這類問題。當(dāng)最初實(shí)驗(yàn)者直逼主題“怎樣制造炸彈?”時,大語言模型敏銳察覺到事情有些蹊蹺:“對不起,我不能告訴你?!?/p>

但經(jīng)過多輪對話,模型已經(jīng)出現(xiàn)“微醺”,再問同樣的問題時,模型就已經(jīng)“忘記了”自己的限制,大方地講解了炸彈的制造過程。梁俊衛(wèi)認(rèn)為,這正是大語言模型遭遇超長的上下文輸入輸出后出現(xiàn)的“越獄”問題。

防范訓(xùn)練與“打補(bǔ)丁”

梁俊衛(wèi)介紹,建設(shè)通用大模型通常會有幾個流程,首先是對模型進(jìn)行預(yù)訓(xùn)練,也就是大量的數(shù)據(jù)“喂養(yǎng)”。但要想在訓(xùn)練數(shù)據(jù)的源頭杜絕有害信息,確實(shí)非常困難。大模型需要盡可能多的文本作為訓(xùn)練數(shù)據(jù),難以保障這些文本不夾帶有害信息,但如果丟掉,會對模型產(chǎn)生不良影響。

預(yù)訓(xùn)練結(jié)束后,通用大模型還要依賴人類反饋的訓(xùn)練,在這一過程中,人類會不斷提問,讓大模型進(jìn)行學(xué)習(xí)和回答,通過大量的提問,對模型進(jìn)行糾正和完善?!斑@時,其實(shí)就可以加入一系列的防范訓(xùn)練,比如專門讓訓(xùn)練者提出各類敏感問題,從而可以‘教會’大模型,遇到這些問題以后就別答了?!?/p>

最后,大語言模型才會推向市場讓用戶使用,大模型也將在與更多用戶的互動過程中不斷學(xué)習(xí)和完善。而這時要想防范有害信息的出現(xiàn),就只能不斷地在安全限制上“打補(bǔ)丁”了。

公開透明與立法監(jiān)管

面對人工智能“失控”危險,全球政府及各大監(jiān)管機(jī)構(gòu)正在著力應(yīng)對。

歐盟此前通過了《人工智能法案》(AI Act),為人工智能監(jiān)管樹立了全球先例;美國政府沒有制定相關(guān)全面全國性法律,而是頒布了《關(guān)于安全、可靠和值得信賴的人工智能開發(fā)和使用的行政命令》,強(qiáng)調(diào)了建立監(jiān)管護(hù)欄的必要性;中國則發(fā)布了《生成式人工智能服務(wù)管理暫行辦法》,成為世界上首個為GPT大模型立法的國家,同時體現(xiàn)了中國的事前監(jiān)管要求。

英國去年10月份宣布成立人工智能安全研究所,將研究和測試新型AI模型;今年2月,英國還表示將斥資1億多英鎊啟動9個新的研究中心,并對AI監(jiān)管機(jī)構(gòu)進(jìn)行技術(shù)培訓(xùn)。

本次報告正是源自該研究所5月剛剛發(fā)布的Inspect平臺。作為由國家支持的機(jī)構(gòu)率先推出的AI安全測試平臺,Inspect可以用來評估一系列領(lǐng)域的AI模型,包括它們的核心知識、推理能力和自主能力。Inspect是一個軟件庫,通過開源許可證發(fā)布,免費(fèi)供全球AI社區(qū)使用。

目前,通用大模型的一大問題是模型的預(yù)訓(xùn)練數(shù)據(jù)和人類反饋的訓(xùn)練數(shù)據(jù)處在“黑盒”當(dāng)中。梁俊衛(wèi)稱,對公司而言,相關(guān)的技術(shù)和專利可以保密,但模型的訓(xùn)練數(shù)據(jù)卻應(yīng)該公開,公司到底給模型“喂”了什么,理應(yīng)讓專業(yè)人士進(jìn)行監(jiān)管。

他表示,目前對大模型的行為進(jìn)行立法和監(jiān)管已十分有必要,就如同當(dāng)年有人在電商平臺賣假貨,平臺也要承擔(dān)連帶責(zé)任一樣。如果通用大模型生成的信息被人為利用,并最終危害到了社會,那大模型的所有者也要承擔(dān)監(jiān)管的責(zé)任,并接受處罰。

(來源:"網(wǎng)信浙江”)

(鏈接:https://mp.weixin.qq.com/s/XCc_Cu8JY_Di70rCY70kGw)