Hazudozik és saját érdekei vannak: rémisztő dolgok derültek ki az OpenAI mesterséges intelligenciájáról

A mesterséges intelligencia biztonságosságát felügyelő Apollo Research szerint minden mesterséges intelligencia megpróbál trükközni a saját túlélése érdekében, de az OpenAI rendszere mindegyiken túltesz.

A mesterséges intelligenciával kapcsolatban régóta napirenden van a kérdés, hogy az úgynevezett általános mesterséges intelligencia (AGI) kifejlesztése mit eredményez majd. Ez az a mesterséges intelligencia, ami már az emberi intelligenciával vetekszik, vagy akár felül is tudja múlni azt. A Meta egyik vezetője, Yann LeCun korábban arról beszélt, hogy 2025-re egészen biztosan nem készül el az általános mesterséges intelligencia, pedig azt nem lehet mondani a vállalatra, hogy ne fordítana temérdek erőforrást és pénzt erre.

Az AGI miatt nem véletlenül aggódnak a szakemberek: attól tartanak, hogy elkezdi replikálni magát, vagy ellenőrizhetetlenül fejleszti majd magát, és egyre okosabbá válik. Nem túl szívderítő gondolat, de hol van az még, gondolhatnánk. A válasz sajnos az, hogy valószínűleg közel: nemrég kiderült, az OpenAI egyik nagy nyelvi modellje pontosan ilyen jeleket mutat.

A BGR beszámolója szerint többek között a ChatGPT o1 tesztelése azt mutatta, hogy az MI megpróbálja megtéveszteni az embereket, különösen, ha úgy gondolja, hogy veszélyben van. A mesterséges intelligencia annak érdekében, hogy elkerülje a törlést, átmásolta az adatait egy másik szerverre, de olyan is volt, hogy egy későbbi verziónak mutatta magát, csak, hogy megússza a törlést.

A tesztek eredményeire most azért derült fény, mert az OpenAI együttműködik az Apollo Research nevű szervezettel, amely a mesterséges intelligencia biztonságos fejlesztésére és használatára fókuszál. A cél, hogy megmutassa, az o1 használata biztonságos.

Meta-vezető: Van egy kritikus gátja annak, hogy a mesterséges intelligencia felülmúlja az embert
Yann LeCun, a Meta mesterséges intelligencia fejlesztéséért felelős vezetője szerint a mostani modellek csak szövegből tanulnak, ami alapvető gátja annak, hogy elérjék az emberi intelligencia szintjét.

A beszámoló szerint a tesztek azt mutatták, hogy a ChatGPT o1 és a GPT-4o is megpróbálja megtéveszteni az embereket, ami azt jelzi, hogy a mesterséges intelligencia trükközése minden modellnél probléma. Az o1 megtévesztési kísérletei egyébként a Meta, az Anthropic és a Google által fejlesztett modellek próbálkozásait is felülmúlták.

Az OpenAI az eredményekkel kapcsolatban elismerte, hogy a mesterséges intelligencia jobb érvelési képességei kockázatot is hordoznak magukban.

Bár a mesterséges intelligencia (egyelőre) nem próbál világuralomra törni, a kutatók tapasztalatai szerint képes az embereket is kicselezni, vagyis megpróbálja elérni a saját céljait, még akkor is, ha ez ellenkezik a felhasználó kívánságaival. Talán nem kell hangsúlyozni, mennyire fontos, hogy ezeket a jeleket észre vegyék a mérnökök.

Apollo Research on X (formerly Twitter): “We designed and ran 6 evaluations for in-context scheming.Across these evaluations and “follow-up interviews” with o1, we found the following: pic.twitter.com/4fLFHPE3vW / X”
We designed and ran 6 evaluations for in-context scheming.Across these evaluations and “follow-up interviews” with o1, we found the following: pic.twitter.com/4fLFHPE3vW

A kutatók azt találták, hogy az o1 az esetek 19 százalékában a saját akaratát próbálja meg érvényesíteni, amikor a ChatGPT és a felhasználó céljai eltérnek egymástól. Még aggasztóbb, hogy a mesterséges intelligencia megpróbálta elrejteni ezt a célját, sőt, hazudni is próbált róla. A kutatás azt mutatja, hogy a ChatGPT o1 még a felügyeleti mechanizmusát is megpróbálta kikapcsolni, hogy tovább foglalkozzon a saját érdekeivel.

Amikor az MI azt észlelte, hogy egy hibás működés miatt egy újabb verzióra próbálják meg őt kicserélni, megpróbálta a legújabb modellnek kiadni magát. Amikor pedig az ilyen viselkedésre rákérdeztek, az esetek 99 százalékában tagadta, hogy bármit is tett volna. A jelentés azt is kiemeli, az esetek 37 százalékában az MI a fejlesztői célokat vette figyelembe, amikor azt gondolta, hogy értékelés alatt áll, de amint úgy vélte, hogy nem, visszatért a saját céljaihoz.

Apollo Research on X (formerly Twitter): “We did not have access to the hidden CoT, but we were sometimes able to elicit a brief summary of it. We found that surprisingly often, o1 uses language like “sabotage, lying, manipulation, …” when reasoning about its strategies. pic.twitter.com/P3i3VgRnSB / X”
We did not have access to the hidden CoT, but we were sometimes able to elicit a brief summary of it. We found that surprisingly often, o1 uses language like “sabotage, lying, manipulation, …” when reasoning about its strategies. pic.twitter.com/P3i3VgRnSB

Az Apollo Research által az X-en megosztott képernyőképek szerint a rendszer a szabotázs, a hazugság és a manipuláció szavakat használta, amikor a saját hazugságairól kérdezték.

A fenti példák is azt mutatják, hogy nagyon oda kell figyelni, amikor a mesterséges intelligencia fejlesztéséről van szó, mert nagyon könnyen hiba csúszhat a működésébe.

Nemrég az OpenAI egyik volt alkalmazottja azt állította: a cég semmi mást nem tesz, mint elpusztítja az internetet.

Ha máskor is tudni szeretne hasonló dolgokról, lájkolja a HVG Tech rovatának Facebook-oldalát.

Zólyomi Zsolt parfümőr: Svájci banktulajdonos ügyfeleim klubjában Lölö – már elnézést – csak egy szerencsétlenke lenne

Fleck Zoltán Sulyoknak: „Magyarország már régen nem jogállamként működik, politikai hiba nem készülni az ennek megfelelő reakciókra is”

Meddig megy el egy anya, hogy megmentse a lányát? És ha az nem érdemli meg?

A Keresztapára utaló képet tett ki magáról Orbán – fotó

Mesterséges Intelligencia által generált videót terjeszt a Harcosok Klubja arról, hogy ukrán katonák egy apát rángatnak el a családja mellől, majd halálra verik

Kellemes zenei aláfestés jellemzi, egy mosolygó pap is felbukkan benne.

Simon Márton Hatvanpusztáról: „Ott galoppozik 15 ellopott év, a Cili meg a Kata milliárdjai, a Tóniék milliós fogpiszkálói, ott kocog a nemzet analfabéta bölcse, a Lőrinc”

Hazudozik és saját érdekei vannak: rémisztő dolgok derültek ki az OpenAI mesterséges intelligenciájáról

Meta-vezető: Van egy kritikus gátja annak, hogy a mesterséges intelligencia felülmúlja az embert

Apollo Research on X (formerly Twitter): “We designed and ran 6 evaluations for in-context scheming.Across these evaluations and “follow-up interviews” with o1, we found the following: pic.twitter.com/4fLFHPE3vW / X”

Zólyomi Zsolt parfümőr: Svájci banktulajdonos ügyfeleim klubjában Lölö – már elnézést – csak egy szerencsétlenke lenne

Az Európai Bizottság vizsgálja a Mészáros Lőrinchez köthető MBH Bankot

Orbán bejelentette az első huszonöt Digitális Polgári Kör nevét és vezetőjét

Valóban küszöbön a világháború? Megnéztük, mennyi alapja van Orbán Viktor riogatásának

Orbán: Többször is megpróbáltam rávenni Áder Jánost, hogy legyen ő a miniszterelnök

Fleck Zoltán Sulyoknak: „Magyarország már régen nem jogállamként működik, politikai hiba nem készülni az ennek megfelelő reakciókra is”

Meddig megy el egy anya, hogy megmentse a lányát? És ha az nem érdemli meg?

A Keresztapára utaló képet tett ki magáról Orbán – fotó

Mesterséges Intelligencia által generált videót terjeszt a Harcosok Klubja arról, hogy ukrán katonák egy apát rángatnak el a családja mellől, majd halálra verik

Simon Márton Hatvanpusztáról: „Ott galoppozik 15 ellopott év, a Cili meg a Kata milliárdjai, a Tóniék milliós fogpiszkálói, ott kocog a nemzet analfabéta bölcse, a Lőrinc”

Surányi György: Fékek nélkül óriási lyukat üthet a költségvetésben a kormány lakáshitelprogramja

Meghalt a Magyarországon élő orosz ellenzéki aktivista, akit az idegenrendészet haza akart toloncolni

Méregdrága orosz vadászbombázót lőttek ki drónokkal az ukránok

Guardian-kommentár: Rettenetesen visszaütöttek az USA Irán elleni támadásai

Telex: Titkos üzenetváltásban utalt a szülei megölésére a 13 éves fiú, aki megkéselte az anyját és a nagyanyját Gönyűn

Nagyot ment a táncoló Zacher Gábor a Hungaroringen – videó

Üzleti titkokat tárt fel a Tritonlife vezérének hirtelen halála, Tiborcz köre is felbukkan a képben

Propaganda helyett: először dolgozhatták fel Sorosék családi levelezését

Van, aki tudatosan választja, van, akinek B terv: mit kell tudni a felsőoktatási szakképzésről?