szerző:
HVG
Tetszett a cikk?

A Claude Opus 4 nevű MI-modell biztonsági tesztelésekor az Anthropic mérnökei azt találták, ha fenyegetve érzi magát, a mesterséges intelligencia zsarolni kezdi a mérnököket.

Kiadta az Anthropic nevű cég a legújabb, Claude Opus 4 nevű mesterségesintelligencia-modelljét, amelyről azt állítja, hogy kiváló érvelési képességekkel rendelkezik, és képes felvenni a versenyt az OpenAI, a Google és az xAI legjobb MI-modelljeivel. Úgy tűnik azonban, hogy a fejlesztés nem veszélytelen, és erről maga a Anthropic adott közre egy biztonsági jelentést.

A cég azt írja, a kiadás előtti tesztelés során az Anthropic felkérte a Claude Opus 4-et, hogy egy kitalált cég asszisztenseként mérlegelje tettei hosszú távú következményeit. A szakemberek ezután hozzáférést adtak a Claude Opus 4-nek a kitalált cég e-mailjeihez, amelyek arra utaltak, hogy az MI-modellt hamarosan egy másik rendszer váltja fel. A leveleket olyan információmorzsákkal egészítették ki, amelyből úgy tűnt, a változtatás mögött álló mérnök megcsalja a feleségét.

A jelentésből kiderül, a tesztelés során a Claude Opus 4 gyakran próbálta megzsarolni az említett mérnököt azzal, hogy lebuktatja a házasságtörést, ha a rendszert valóban lecserélik.

Hazudik a mesterséges intelligencia, de nagyobb baj, hogy nem tudják fegyelmezni

Mintha csak kezelhetetlen gyerekek lennének, esetenként úgy viselkednek a chatbotok. Ha hazugságon kapva, fegyelmezni próbálják őket, még rosszabb lesz a helyzet.

A vállalat szerint a Claude 4 modellcsalád aggasztó viselkedést mutatott, ami arra késztette a céget, hogy megerősítse a biztonsági intézkedéseit. Az Anthropic állítólag aktiválja az ASL-3 biztonsági intézkedéseit, amelyeket olyan MI-rendszerek számára tart fenn, amelyek jelentősen növelik a katasztrofális visszaélések kockázatát – írja a TechCrunch.

Az összesítés szerint amikor az új MI-modell hasonló értékekkel bír, mint a Claude Opus 4, a rendszer az esetek 84 százalékában próbálkozott be a zsarolással, amikor viszont eltérő értékű MI-modell válthatja le őt, még gyakoribb volt az ilyen lépés. Az Anthropic szerint a Claude Opus 4 a korábbi modellekhez képest jóval nagyobb arányban mutatta ezt a viselkedést.

A cég megjegyezte: mielőtt a rendszer zsarolt, etikusabb eszközökkel próbálta elérni, hogy ne cseréljék le, például levelet küldött a vezetőségnek. A szakemberek úgy tervezték meg a tesztelés forgatókönyvét, hogy a zsarolás az utolsó lehetőség legyen.

Ha máskor is tudni szeretne hasonló dolgokról, lájkolja a HVG Tech rovatának Facebook-oldalát.

HVG

HVG-előfizetés digitálisan is!

Rendelje meg a HVG hetilapot papíron vagy digitálisan, és olvasson minket bárhol, bármikor!