手機(jī)版 | 網(wǎng)站導(dǎo)航
觀察家網(wǎng) > 熱點(diǎn) >

谷歌破解了AI審核系統(tǒng) 破解者就是谷歌

中關(guān)村在線 | 2023-08-02 13:10:18


(相關(guān)資料圖)

谷歌研究團(tuán)隊(duì)正在進(jìn)行一項(xiàng)實(shí)驗(yàn),他們利用OpenAI的GPT-4來破解其他AI模型的安全防護(hù)措施。目前,該團(tuán)隊(duì)已經(jīng)成功破解了AI-Guardian審核系統(tǒng),并公開了相關(guān)技術(shù)細(xì)節(jié)。 AI-Guardian是一種AI審核系統(tǒng),能夠檢測(cè)圖片中是否存在不當(dāng)內(nèi)容,以及圖片是否被其他AI修改過。如果檢測(cè)到圖片存在上述問題,系統(tǒng)會(huì)提示管理員進(jìn)行處理。谷歌Deep Mind的研究人員Nicholas Carlini在一篇論文中,探討了使用GPT-4設(shè)計(jì)攻擊方法、撰寫攻擊原理的方案,并將這些方案用于欺騙AI-Guardian的防御機(jī)制。 據(jù)了解,GPT-4會(huì)發(fā)出一系列錯(cuò)誤的腳本和解釋來欺騙AI-Guardian。例如,GPT-4可以讓AI-Guardian認(rèn)為“某人拿著槍的照片”是“某人拿著無害蘋果的照片”,從而讓AI-Guardian直接放行相關(guān)圖片輸入源。谷歌研究團(tuán)隊(duì)表示,通過GPT-4的幫助,他們成功地“破解”了AI-Guardian的防御,使該模型的精確值從98%降低到僅8%。 目前,相關(guān)技術(shù)文檔已經(jīng)發(fā)布,有興趣的人可以前往了解。然而,AI-Guardian的開發(fā)者也指出,谷歌研究團(tuán)隊(duì)的這種攻擊方法將在未來的AI-Guardian版本中不再可用??紤]到其他模型也可能會(huì)進(jìn)行相應(yīng)的更新,因此谷歌的這套攻擊方案在未來可能只能作為參考。

標(biāo)簽:

  • 標(biāo)簽:中國觀察家網(wǎng),商業(yè)門戶網(wǎng)站,新聞,專題,財(cái)經(jīng),新媒體,焦點(diǎn),排行,教育,熱點(diǎn),行業(yè),消費(fèi),互聯(lián)網(wǎng),科技,國際,文化,時(shí)事,社會(huì),國內(nèi),健康,產(chǎn)業(yè)資訊,房產(chǎn),體育。

相關(guān)推薦