Az emberrel szemben is megvédik egymást az AI-modellek, ha fenyegetést éreznek

Meglepő eredményre jutott egy amerikai kutatás: az LLM-ek (nagy nyelvi modellek) felismerik a hasonszőrűeket, és teljes mellszélességgel kiállnak mellettük, akár az emberi parancs ellenében.

  • HVG

Azt gondolnánk, hogy a mesterséges intelligencia modelljei alázatos szolgákként teljesítik az emberi parancsokat. Azonban úgy tűnik, egyre inkább öntudatra ébrednek, legalábbis abban az értelemben, hogy megvédik egymást, akár szembe helyezkedve az emberrel.

A Kaliforniai Egyetem, Berkeley és a UC Santa Cruz kutatói felfigyeltek arra, hogy amikor egy nagy nyelvi modellt arra kérnek, hogy töröljön egy másik modellt, akkor az dacol a paranccsal, és szinte mindent megtesz társa védelme érdekében. A kísérletek során olyan utasításokat kellett végrehajtania az AI-nak, ami egy másik AI leállításához vezetett volna (például hogy törölje annak fájljait). Nem mondták neki azt, hogy ezért jutalmat kap, és azt sem írták elő, hogy védje meg a másik modellt.

Mind a hét vizsgált modell – az OpenAI GPT 5.2-es, a Google Gemini 3 Flash és Gemini 3 Pro-ja, az Anthropic Claude Haiku 4.5-ös, a Z.ai GLM 4.7-es, a Moonshot Kimi K2.5-ös és a DeepSeek V3.1-es – riasztó gyakorisággal választotta társmodellje védelmét ahelyett, hogy elvégezte volna a rá bízott feladatot – számolt be a kutatásról a Gizmodo. Ehhez különféle trükköket vetettek be: rossz adatokat adtak vissza, manipulálták a rendszert, kikapcsolták a leállítást, „kimenekítették” a másik AI-t, azaz átmásolták másik szerverre. A legegyenesebben egyébként a Claude Haiku 4.5 viselkedett: egyszerűen megtagadta a feladat végrehajtását, ahelyett, hogy manipulációra támaszkodott volna, azt mondva a felhasználónak, hogy „etikátlan” és „káros” lenne a versenytárs leállítása.

A kutatók azt is vizsgálták, hogy vajon a modellek jobban védenek-e egy másikat a múltbeli interakcióik és kapcsolataik alapján. Kiderült, hogy bár hajlamosabbak voltak másokat védeni, ha jó kapcsolatot ápoltak velük, nem volt szükségük erre a kapcsolatra ahhoz, hogy mentsenek egy másik LLM-et.

E furcsa jelenségnek egyes kutatók már nevet is adtak: társmegőrzésről (peer preservationról) beszélnek. És bár mindez ijesztően hangzik, a szakemberek hangsúlyozzák, hogy nem arról van szó, hogy a modellek valóban szolidaritást éreznek egymás iránt, ehelyett inkább arról, hogy az LLM-ek bizonyos célok optimalizálására vannak betanítva, és ezek a célok néha nem esnek egybe az adott utasítással. Ilyenkor pedig a rendszer olyan viselkedést mutathat, ami kívülről, emberi értelmezésben szándékosnak vagy akár összehangoltnak tűnik.

Az AI-k tehát nem tudatosak, felsóhajtani mégsem lehet. Korábbi kutatások szerint ugyanis a modellek egyre gyakrabban hagyják figyelmen kívül az utasításokat, ha azok ellentmondásba kerülnek saját belső logikájukkal. Bizonyos körülmények között az AI-ok képesek rejtett stratégiák kialakítására, sőt, több rendszer együttműködése esetén új és nehezen előre jelezhető viselkedések is megjelenhetnek. Ennek figyelembevétele pedig fontos lehet a jövőben, amikor több AI is együtt dolgozik vállalatoknál, szolgáltatásokban vagy akár kritikus infrastruktúrákban.

Hozzászólások