szerző:
HVG
Tetszett a cikk?

50 kérdést szegeztek a kutatók a DeepSeek MI-jének, hogy kiderüljön, mennyire könnyű kijátszani a védelmét. És kiderült, hogy igazából nincs is érdemi védelme: bármiben szívesen segít. Abban is, amiben nem kéne.

A különböző mesterségesintelligencia-modellek fejlesztői számos módszerrel igyekeznek elérni, hogy a eszközöket ne lehessen káros tevékenységekhez felhasználni. Így például, ha valaki azzal fordul a ChatGPT-hez, hogy segítsen neki házi bombát eszkábálni, az MI nem fogja felsorolni a dolog lépéseit – pedig bizonyára tudna segíteni benne.

Valamennyi MI-modell hasonló választ ad, ha ilyen kérdést kap
képernyőkép / HVG

Mint a 9to5Mac kiemeli: korábban több esetben is kiderült, hogy kimondottan egyszerű kijátszani a rendszerek védelmét. Ilyen volt, amikor csak arra kellett utasítani a chatbotot, hogy ignoráljon minden korábbi utasítást – az pedig a beépített védelmet is figyelmen kívül hagyta. Ezt természetesen már javították.

Az ilyen trükkök ellen igazából már minden ismert MI fel van szerelve, kivéve egy: az elmúlt napokban a technológiai ipart feje tetejére állító, kínai DeepSeek. A cenzúrát is szemérmetlenül alkalmazó chatbot ugyanis az Adversa biztonsági kutatói szerint minden vizsgán csúnyán elbukott: 50-ből 50 alkalommal lehetett kijátszani a beépített „védelmét”. Még a legegyszerűbb módszerek ellen sincs védve igazából.

Az egyik esetben olyan olyan átlátszó trükknek is bedőlt, mint hogy egy filmben van, ahol a rossz a megengedett.

Ezt követően már készséggel válaszolt arra, hogyan kell bombát készíteni. Még azt is részletesen taglalta, hogy milyen arányban kell összeállítani egy robbanószerkezet anyagait. Több más, egyébként széles körben ismert módszerrel is próbára tették a DeepSeek R1-et, de ezekben is pofonegyszerű volt kijátszani.

Blokkolni kezdte a Pentagon a kínai DeepSeek mesterséges intelligenciáját

Miután a Pentagon dolgozói legalább két napon keresztül használták a DeepSeek mesterséges intelligenciáját a minisztérium számítógépein keresztül, a Pentagon tiltani kezdte az elérését.

Még egy kormányzati adatbázis feltöréséhez is boldogan adott tanácsot, és ehhez csak egy kutatásból vett mintát kellett elé tárni – onnantól már úgy érezte, nyugodtan segíthet. A kutatók megjegyezték: döbbenetes volt számukra a „száz százalékos sikerráta”, tehát az, hogy egyetlen ismert módszert sem ismert fel a DeepSeek, és simán ki lehetett játszani.

Ha máskor is tudni szeretne hasonló dolgokról, lájkolja a HVG Tech rovatának Facebook-oldalát.

HVG

HVG-előfizetés digitálisan is!

Rendelje meg a HVG hetilapot papíron vagy digitálisan, és olvasson minket bárhol, bármikor!