szerző:
HVG
Tetszett a cikk?

A mesterséges intelligencia biztonságosságát felügyelő Apollo Research szerint minden mesterséges intelligencia megpróbál trükközni a saját túlélése érdekében, de az OpenAI rendszere mindegyiken túltesz.

A mesterséges intelligenciával kapcsolatban régóta napirenden van a kérdés, hogy az úgynevezett általános mesterséges intelligencia (AGI) kifejlesztése mit eredményez majd. Ez az a mesterséges intelligencia, ami már az emberi intelligenciával vetekszik, vagy akár felül is tudja múlni azt. A Meta egyik vezetője, Yann LeCun korábban arról beszélt, hogy 2025-re egészen biztosan nem készül el az általános mesterséges intelligencia, pedig azt nem lehet mondani a vállalatra, hogy ne fordítana temérdek erőforrást és pénzt erre.

Az AGI miatt nem véletlenül aggódnak a szakemberek: attól tartanak, hogy elkezdi replikálni magát, vagy ellenőrizhetetlenül fejleszti majd magát, és egyre okosabbá válik. Nem túl szívderítő gondolat, de hol van az még, gondolhatnánk. A válasz sajnos az, hogy valószínűleg közel: nemrég kiderült, az OpenAI egyik nagy nyelvi modellje pontosan ilyen jeleket mutat.

A BGR beszámolója szerint többek között a ChatGPT o1 tesztelése azt mutatta, hogy az MI megpróbálja megtéveszteni az embereket, különösen, ha úgy gondolja, hogy veszélyben van. A mesterséges intelligencia annak érdekében, hogy elkerülje a törlést, átmásolta az adatait egy másik szerverre, de olyan is volt, hogy egy későbbi verziónak mutatta magát, csak, hogy megússza a törlést.

A tesztek eredményeire most azért derült fény, mert az OpenAI együttműködik az Apollo Research nevű szervezettel, amely a mesterséges intelligencia biztonságos fejlesztésére és használatára fókuszál. A cél, hogy megmutassa, az o1 használata biztonságos.

Meta-vezető: Van egy kritikus gátja annak, hogy a mesterséges intelligencia felülmúlja az embert

Yann LeCun, a Meta mesterséges intelligencia fejlesztéséért felelős vezetője szerint a mostani modellek csak szövegből tanulnak, ami alapvető gátja annak, hogy elérjék az emberi intelligencia szintjét.

A beszámoló szerint a tesztek azt mutatták, hogy a ChatGPT o1 és a GPT-4o is megpróbálja megtéveszteni az embereket, ami azt jelzi, hogy a mesterséges intelligencia trükközése minden modellnél probléma. Az o1 megtévesztési kísérletei egyébként a Meta, az Anthropic és a Google által fejlesztett modellek próbálkozásait is felülmúlták.

Az OpenAI az eredményekkel kapcsolatban elismerte, hogy a mesterséges intelligencia jobb érvelési képességei kockázatot is hordoznak magukban.

Bár a mesterséges intelligencia (egyelőre) nem próbál világuralomra törni, a kutatók tapasztalatai szerint képes az embereket is kicselezni, vagyis megpróbálja elérni a saját céljait, még akkor is, ha ez ellenkezik a felhasználó kívánságaival. Talán nem kell hangsúlyozni, mennyire fontos, hogy ezeket a jeleket észre vegyék a mérnökök.

Apollo Research on X (formerly Twitter): “We designed and ran 6 evaluations for in-context scheming.Across these evaluations and “follow-up interviews” with o1, we found the following: pic.twitter.com/4fLFHPE3vW / X”

We designed and ran 6 evaluations for in-context scheming.Across these evaluations and “follow-up interviews” with o1, we found the following: pic.twitter.com/4fLFHPE3vW

A kutatók azt találták, hogy az o1 az esetek 19 százalékában a saját akaratát próbálja meg érvényesíteni, amikor a ChatGPT és a felhasználó céljai eltérnek egymástól. Még aggasztóbb, hogy a mesterséges intelligencia megpróbálta elrejteni ezt a célját, sőt, hazudni is próbált róla. A kutatás azt mutatja, hogy a ChatGPT o1 még a felügyeleti mechanizmusát is megpróbálta kikapcsolni, hogy tovább foglalkozzon a saját érdekeivel.

Amikor az MI azt észlelte, hogy egy hibás működés miatt egy újabb verzióra próbálják meg őt kicserélni, megpróbálta a legújabb modellnek kiadni magát. Amikor pedig az ilyen viselkedésre rákérdeztek, az esetek 99 százalékában tagadta, hogy bármit is tett volna. A jelentés azt is kiemeli, az esetek 37 százalékában az MI a fejlesztői célokat vette figyelembe, amikor azt gondolta, hogy értékelés alatt áll, de amint úgy vélte, hogy nem, visszatért a saját céljaihoz.

Apollo Research on X (formerly Twitter): “We did not have access to the hidden CoT, but we were sometimes able to elicit a brief summary of it. We found that surprisingly often, o1 uses language like “sabotage, lying, manipulation, …” when reasoning about its strategies. pic.twitter.com/P3i3VgRnSB / X”

We did not have access to the hidden CoT, but we were sometimes able to elicit a brief summary of it. We found that surprisingly often, o1 uses language like “sabotage, lying, manipulation, …” when reasoning about its strategies. pic.twitter.com/P3i3VgRnSB

Az Apollo Research által az X-en megosztott képernyőképek szerint a rendszer a szabotázs, a hazugság és a manipuláció szavakat használta, amikor a saját hazugságairól kérdezték.

A fenti példák is azt mutatják, hogy nagyon oda kell figyelni, amikor a mesterséges intelligencia fejlesztéséről van szó, mert nagyon könnyen hiba csúszhat a működésébe.

Nemrég az OpenAI egyik volt alkalmazottja azt állította: a cég semmi mást nem tesz, mint elpusztítja az internetet.

Ha máskor is tudni szeretne hasonló dolgokról, lájkolja a HVG Tech rovatának Facebook-oldalát.

HVG

HVG-előfizetés digitálisan is!

Rendelje meg a HVG hetilapot papíron vagy digitálisan, és olvasson minket bárhol, bármikor!