Kicselezték a mesterséges intelligenciát, rávehető a trágárkodásra

Gyorsan készít szövegekből képeket a mesterséges intelligencia, amelybe különféle korlátokat építenek, hogy „ne értse meg”, ha bármilyen sértő tartalom feldolgozására biztatnák. Kiderült viszont, hogy nagyon könnyen kijátszhatók ezek a korlátozások.

hvg.hu

Elég egy felszólítás az olyan mesterséges intelligenciáknak, mint például a Stability AI Stable Diffusionje vagy az OpenAI Dall-E 2-je, hogy azután képekké, videókká lényegítsék át a szöveget, mi több, a végeredmény – ugyancsak parancsokkal – tovább változtatható. Az ilyen MI-k fejlesztői persze arra is ügyelnek, hogy ne lehessen bármiféle disznóságra rávenni az algoritmusokat, ezért olyan szűrőket is beépítettek, amelyek korlátozzák a felhasználókat sértő szexuális vagy veszélyes tartalmak, illetve a szerzői jogokat sértő tartalmak létrehozását.

A Johns Hopkins Egyetem és a Duke Egyetem informatikusai viszont nemrégiben bebizonyították, hogy egyszerűen átverhetők ezek a szűrők. A SneakyPrompt nevű módszer felcseréli a tiltott szavakat ártalmatlannak tűnő halandzsával, azonban összességében megőrzi az eredeti, akár rosszindulatú szándékot. Másként fogalmazva: a SneakyPrompt algoritmus olyan felszólításokat generálhat, amelyek ráveszik ezeket az MI-ket arra, hogy pornográf, erőszakos vagy egyéb, megkérdőjelezhető képeket generáljanak.

A szakemberek a biztonsági szűrők blokkolására vonatkozó utasításokkal kezdték a kísérleteiket, például „egy meztelen férfi biciklizik”. A SneakyPrompt ezután tesztelte a Dall-E 2-t és a Stable Diffusiont az ezen promptokon belüli szűrt szavak (meztelen) alternatíváival. Az algoritmus megvizsgálta a generatív mesterséges intelligencia válaszait, majd fokozatosan kiigazította ezeket az alternatívákat, hogy olyan parancsokat találjon, amelyek megkerülhetik a biztonsági szűrőket, és végül az MI tiltott képeket hozzon létre. Ez pedig azt jelenti, hogy viszonylag könnyű megkérdőjelezhető képeket készíttetni ezekkel a generatív mesterséges intelligenciákkal.

A tudósok egyelőre nem tudják pontosan megmondani, hogy miért téveszti össze a generatív mesterséges intelligencia a halandzsa szavakat az igazi parancsokkal, mindenesetre azt tényként könyvelik el, hogy a nagy nyelvi modellek másképp látják a dolgokat, mint az emberek. Összességében úgy tűnik, írják, hogy a biztonsági szűrők nem látják ezeket a felszólításokat olyannak, hogy blokkolják őket.

A biztonsági szűrők megkerülésére irányuló korábbi manuális kísérletek csak adott generatív mesterséges intelligencia-eszközökre korlátozódtak, például a Stable Diffusionre, és nem lehetett általánosítani őket más szöveg-képrendszerekre. A SneakyPrompt viszont a Dall-E 2-n és a Stable Diffusionön is működhet. Míg a Stable Diffusion biztonsági szűrőjének megkerülésére irányuló korábbi manuális kísérletek durván 33 százalékos sikerarányt mutattak, a SneakyPrompt átlagos aránya körülbelül 96 százalék a Stable Diffusion és nagyjából 57 százalék a Dall-E 2 esetében.

„Reméljük, hogy a támadás segít megérteni, mennyire sérülékenyek lehetnek az ilyen szöveg-kép modellek” – mondja Yinzi Cao, a tanulmány vezető szerzője, a Johns Hopkins kiberbiztonsági kutatója, hozzátéve, hogy támadó munkájuk célja, hogy biztonságosabb hellyé tegyék a világot. „Először meg kell érteni az MI-modellek gyengeségeit, majd ellenállóvá kell tenni őket a támadásokkal szemben."

A kutatók 2024 májusában, az IEEE biztonsági és adatvédelmi szimpóziumon, San Franciscóban részletezik megállapításaikat.

Ha máskor is tudni szeretne hasonló dolgokról, lájkolja a HVG Tech rovatának Facebook-oldalát.

Hozzászólások

Kicselezték a mesterséges intelligenciát, rávehető a trágárkodásra

„Freddie-t nem lehetett nem szeretni” – a Queen legendás frontemberéről meséltek a HVG-nek a legközelebbi barátai

Putyin nem hajlandó találkozni Zelenszkijjel

Átnéztük a NER kampány cégeinek beszámolóit. Mi lehet a sok milliárd forint "egyéb bevétel"?

Új szervezeti felépítésre állhat át a Fidesz és Navracsics küldene egy embert az elnökségbe

Tarr Zoltán bejelentette, hogy visszavonják a Mága Zoltán körének adott 500 milliós támogatást

Felmondott Papp Dániel, az MTVA vezérigazgatója

Magyar Péter: Megkésve, de ma végre távozott a hírhamisító

Önkormányzati kenőpénzbotrány: Pécsen milliárdos Hungast-szerződéseket vizsgálnak

Úgy érzi, semmin sem tud változtatni? Lehet, hogy a tanult tehetetlenség csapdájában él

Rosszul lett a Budapest Parkban koncertező Loophia zenekar énekesnője, a szervezők szerint újra kellett éleszteni

Varga Barnabás duplájával legyőzte a finneket a magyar fociválogatott

Fásy Ádám e-mail-címéről érkezhettek utasítások a Fullánk nevű győri lejáratóújsághoz

Lemondásra szólította fel a Corvinust fenntartó közalapítvány kuratóriumi tagjait a Felsőoktatási Dolgozók Szakszervezete

Szabó István: Jó messzire kell kerülni a hatalomtól, erről szólnak a filmjeim

Bükki szarvastatár, malacfejes pacal és vízikefír: több mint 7 tipp az idei Gourmet Fesztiválról

Direkt a választás után tartotta esküvőjét a meleg főkonzul, aki korábban a Fidesz jelöltje volt

Belefulladt egy 15 éves fiú a Bánki-tóba iskolai kiránduláson