Hazudozik és saját érdekei vannak: rémisztő dolgok derültek ki az OpenAI mesterséges intelligenciájáról
A mesterséges intelligencia biztonságosságát felügyelő Apollo Research szerint minden mesterséges intelligencia megpróbál trükközni a saját túlélése érdekében, de az OpenAI rendszere mindegyiken túltesz.
Az AGI miatt nem véletlenül aggódnak a szakemberek: attól tartanak, hogy elkezdi replikálni magát, vagy ellenőrizhetetlenül fejleszti majd magát, és egyre okosabbá válik. Nem túl szívderítő gondolat, de hol van az még, gondolhatnánk. A válasz sajnos az, hogy valószínűleg közel: nemrég kiderült, az OpenAI egyik nagy nyelvi modellje pontosan ilyen jeleket mutat.
A BGR beszámolója szerint többek között a ChatGPT o1 tesztelése azt mutatta, hogy az MI megpróbálja megtéveszteni az embereket, különösen, ha úgy gondolja, hogy veszélyben van. A mesterséges intelligencia annak érdekében, hogy elkerülje a törlést, átmásolta az adatait egy másik szerverre, de olyan is volt, hogy egy későbbi verziónak mutatta magát, csak, hogy megússza a törlést.
A tesztek eredményeire most azért derült fény, mert az OpenAI együttműködik az Apollo Research nevű szervezettel, amely a mesterséges intelligencia biztonságos fejlesztésére és használatára fókuszál. A cél, hogy megmutassa, az o1 használata biztonságos.
Yann LeCun, a Meta mesterséges intelligencia fejlesztéséért felelős vezetője szerint a mostani modellek csak szövegből tanulnak, ami alapvető gátja annak, hogy elérjék az emberi intelligencia szintjét.
A beszámoló szerint a tesztek azt mutatták, hogy a ChatGPT o1 és a GPT-4o is megpróbálja megtéveszteni az embereket, ami azt jelzi, hogy a mesterséges intelligencia trükközése minden modellnél probléma. Az o1 megtévesztési kísérletei egyébként a Meta, az Anthropic és a Google által fejlesztett modellek próbálkozásait is felülmúlták.
Az OpenAI az eredményekkel kapcsolatban elismerte, hogy a mesterséges intelligencia jobb érvelési képességei kockázatot is hordoznak magukban.
Bár a mesterséges intelligencia (egyelőre) nem próbál világuralomra törni, a kutatók tapasztalatai szerint képes az embereket is kicselezni, vagyis megpróbálja elérni a saját céljait, még akkor is, ha ez ellenkezik a felhasználó kívánságaival. Talán nem kell hangsúlyozni, mennyire fontos, hogy ezeket a jeleket észre vegyék a mérnökök.
We designed and ran 6 evaluations for in-context scheming.Across these evaluations and “follow-up interviews” with o1, we found the following: pic.twitter.com/4fLFHPE3vW
A kutatók azt találták, hogy az o1 az esetek 19 százalékában a saját akaratát próbálja meg érvényesíteni, amikor a ChatGPT és a felhasználó céljai eltérnek egymástól. Még aggasztóbb, hogy a mesterséges intelligencia megpróbálta elrejteni ezt a célját, sőt, hazudni is próbált róla. A kutatás azt mutatja, hogy a ChatGPT o1 még a felügyeleti mechanizmusát is megpróbálta kikapcsolni, hogy tovább foglalkozzon a saját érdekeivel.
Amikor az MI azt észlelte, hogy egy hibás működés miatt egy újabb verzióra próbálják meg őt kicserélni, megpróbálta a legújabb modellnek kiadni magát. Amikor pedig az ilyen viselkedésre rákérdeztek, az esetek 99 százalékában tagadta, hogy bármit is tett volna. A jelentés azt is kiemeli, az esetek 37 százalékában az MI a fejlesztői célokat vette figyelembe, amikor azt gondolta, hogy értékelés alatt áll, de amint úgy vélte, hogy nem, visszatért a saját céljaihoz.
We did not have access to the hidden CoT, but we were sometimes able to elicit a brief summary of it. We found that surprisingly often, o1 uses language like “sabotage, lying, manipulation, …” when reasoning about its strategies. pic.twitter.com/P3i3VgRnSB
Az Apollo Research által az X-en megosztott képernyőképek szerint a rendszer a szabotázs, a hazugság és a manipuláció szavakat használta, amikor a saját hazugságairól kérdezték.
A fenti példák is azt mutatják, hogy nagyon oda kell figyelni, amikor a mesterséges intelligencia fejlesztéséről van szó, mert nagyon könnyen hiba csúszhat a működésébe.
Fél évig 5-6 ember volt kíváncsi a kertészeti tanácsaira, ma már közel kétszázezres követő tábora van Szomoru Miklós „Egy kertész kertje Pilisszentkereszten” blogjának. A kertészmérnök szerint, aki brit mintára magánkert-látogatásokat is szervez, nem kell heti 8 óránál többet dolgozni azért, hogy bárkinek virágzó oázássá váljon a kertje. Erre a legjobb példa virágpompában úszó birodalma.