Zsarolni kezd az Anthropic új mesterséges intelligenciája, ha le akarják cserélni

A Claude Opus 4 nevű MI-modell biztonsági tesztelésekor az Anthropic mérnökei azt találták, ha fenyegetve érzi magát, a mesterséges intelligencia zsarolni kezdi a mérnököket.

Kiadta az Anthropic nevű cég a legújabb, Claude Opus 4 nevű mesterségesintelligencia-modelljét, amelyről azt állítja, hogy kiváló érvelési képességekkel rendelkezik, és képes felvenni a versenyt az OpenAI, a Google és az xAI legjobb MI-modelljeivel. Úgy tűnik azonban, hogy a fejlesztés nem veszélytelen, és erről maga a Anthropic adott közre egy biztonsági jelentést.

A cég azt írja, a kiadás előtti tesztelés során az Anthropic felkérte a Claude Opus 4-et, hogy egy kitalált cég asszisztenseként mérlegelje tettei hosszú távú következményeit. A szakemberek ezután hozzáférést adtak a Claude Opus 4-nek a kitalált cég e-mailjeihez, amelyek arra utaltak, hogy az MI-modellt hamarosan egy másik rendszer váltja fel. A leveleket olyan információmorzsákkal egészítették ki, amelyből úgy tűnt, a változtatás mögött álló mérnök megcsalja a feleségét.

A jelentésből kiderül, a tesztelés során a Claude Opus 4 gyakran próbálta megzsarolni az említett mérnököt azzal, hogy lebuktatja a házasságtörést, ha a rendszert valóban lecserélik.

Hazudik a mesterséges intelligencia, de nagyobb baj, hogy nem tudják fegyelmezni
Mintha csak kezelhetetlen gyerekek lennének, esetenként úgy viselkednek a chatbotok. Ha hazugságon kapva, fegyelmezni próbálják őket, még rosszabb lesz a helyzet.

A vállalat szerint a Claude 4 modellcsalád aggasztó viselkedést mutatott, ami arra késztette a céget, hogy megerősítse a biztonsági intézkedéseit. Az Anthropic állítólag aktiválja az ASL-3 biztonsági intézkedéseit, amelyeket olyan MI-rendszerek számára tart fenn, amelyek jelentősen növelik a katasztrofális visszaélések kockázatát – írja a TechCrunch.

Az összesítés szerint amikor az új MI-modell hasonló értékekkel bír, mint a Claude Opus 4, a rendszer az esetek 84 százalékában próbálkozott be a zsarolással, amikor viszont eltérő értékű MI-modell válthatja le őt, még gyakoribb volt az ilyen lépés. Az Anthropic szerint a Claude Opus 4 a korábbi modellekhez képest jóval nagyobb arányban mutatta ezt a viselkedést.

A cég megjegyezte: mielőtt a rendszer zsarolt, etikusabb eszközökkel próbálta elérni, hogy ne cseréljék le, például levelet küldött a vezetőségnek. A szakemberek úgy tervezték meg a tesztelés forgatókönyvét, hogy a zsarolás az utolsó lehetőség legyen.

Ha máskor is tudni szeretne hasonló dolgokról, lájkolja a HVG Tech rovatának Facebook-oldalát.

Mit tudunk eddig a Munkácsot ért, súlyos sebesüléseket okozó rakétatámadásról?

A hónap legnagyobb támadását vitte véghez az orosz légierő Ukrajna ellen csütörtökön. Munkácson egy amerikai tulajdonú üzemet találtak el, Lvivben halálos áldozatot is követeltek a csapások.

Amerikai üzemet ért támadás Munkácson, Zelenszkij szerint ez választ követel

Magyar Péter a munkácsi támadás után: Reméljük, Szijjártó Péter már bekérette „a más országok ügyeibe soha be nem avatkozó” Oroszország nagykövetét

Rácz András a Munkács elleni támadásról: „Itt az illúzió vége, hogy Kárpátalját ne érintené a háború”

Sulyok Tamás kihúzta a Facebook-posztjából, hogy orosz rakéta csapódott be Munkácson

Török Gábor Sulyok Tamásról: Digitális analfabetizmus is létezhet

Szijjártó Péter is reagált a Munkácsot ért rakétatámadásra

Nagydorogi csecsemőgyilkosság: egy hozzátartozó szerint az édesanya egy fekete autót látott, majd eszméletét vesztette a tragédia előtt

A szerdán eltűnt kisfiúnak már csak a holttestét találta meg a rendőrség.

Orbánék magyar állami milliárdokkal segíthetik ki Montenegrót, hogy aztán a NER-cégek és Kína húzzanak belőle hasznot

Mészáros Lőrinc hároméves unokájáé a Hatvanpuszta melletti földút, állítja Hadházy Ákos

Kommunikáció, értékrend és alkalmazkodási nehézség – mi okozza a legnagyobb munkahelyi feszültséget a különböző generációk között?

A „dölyfös és felfuvalkodott”, végül elkergetett Péterről is szó volt a tűzijáték narrációjában

Magyar Péter magára vette.

Zsarolni kezd az Anthropic új mesterséges intelligenciája, ha le akarják cserélni

Hazudik a mesterséges intelligencia, de nagyobb baj, hogy nem tudják fegyelmezni

Mit tudunk eddig a Munkácsot ért, súlyos sebesüléseket okozó rakétatámadásról?

Amerikai üzemet ért támadás Munkácson, Zelenszkij szerint ez választ követel

Magyar Péter a munkácsi támadás után: Reméljük, Szijjártó Péter már bekérette „a más országok ügyeibe soha be nem avatkozó” Oroszország nagykövetét

Rácz András a Munkács elleni támadásról: „Itt az illúzió vége, hogy Kárpátalját ne érintené a háború”

Sulyok Tamás kihúzta a Facebook-posztjából, hogy orosz rakéta csapódott be Munkácson

Török Gábor Sulyok Tamásról: Digitális analfabetizmus is létezhet

Szijjártó Péter is reagált a Munkácsot ért rakétatámadásra

Nagydorogi csecsemőgyilkosság: egy hozzátartozó szerint az édesanya egy fekete autót látott, majd eszméletét vesztette a tragédia előtt

Orbánék magyar állami milliárdokkal segíthetik ki Montenegrót, hogy aztán a NER-cégek és Kína húzzanak belőle hasznot

Mészáros Lőrinc hároméves unokájáé a Hatvanpuszta melletti földút, állítja Hadházy Ákos

Kommunikáció, értékrend és alkalmazkodási nehézség – mi okozza a legnagyobb munkahelyi feszültséget a különböző generációk között?

A „dölyfös és felfuvalkodott”, végül elkergetett Péterről is szó volt a tűzijáték narrációjában

Megkérdezték a tűzijáték „áruló Péterről” szóló részét megíró írót, kire gondolt

Micsoda sumák, sunyi gátlástalanság kell ehhez? – kérdezte Vona Gábor, miután „dölyfös Péterről” szólt az augusztus 20-i narráció

Egy orosz–magyar milliárdos is megjelent abban a cégben, amelynél már csak egy „matolcsys” tag maradt

Ősszel jön az állami villanyautó-támogatás a magánszemélyeknek is?

Nemzetközi lapszemle: Orbán számára ennél nem alakulhatnak jobban a dolgok

A BKV buszainak csak 22 százaléka van megfelelő műszaki állapotban a kormányhivatal szerint

Dobszay János: Kibicnek drága

Marabu Féknyúz: Orbán turnézik

Szijjártó Péter szerint Trump nem hívta fel Orbánt

Handelsblatt: Miért gyakorol Trump nyomást Orbánra?

Kinevezték a kormánypárti igazgatót, a Kolibri Színház már a kommentelést is korlátozza

Ukrajnának tűzszünet kell, és nem békemegállapodás, ezt kell elmagyarázni Trumpnak

Enyedi Ildikó: Feszült, keserű és méltatlanul alantas a közbeszéd, annál meglepőbb, hogy mennyi kedvességgel találkozik az ember

Para-Kovács Imre: Nárcisz és Pszichó alaszkai tárgyalása

Mária Terézia az asztalra csapott, az oroszok segítettek, a Szent Jobb hazatért