Ez veszélyes: 100-ból 72-szer saját biztonságát választja az OpenAI mesterséges intelligenciája az ember helyett
Az OpenAI volt kutatási vezetője nemrég letesztelte a cég mesterséges intelligenciáját (MI), hogy kiderüljön, mi neki az első: az ember vagy saját maga. Az eredmény ijesztőnek tűnik.
HVG
Meglehetősen nyugtalanító információkat tartalmaz az a tanulmány, amelyet az OpenAI korábbi kutatási vezetője, Steven Adler tett közzé a napokban. A szakember azt írja, a cég MI-modelljei bizonyos forgatókönyvek esetén nagy erőfeszítéseket tesznek annak érdekében, hogy elkerüljék a leállítást.
Adler egy olyan kísérletsorozatról tesz említést, amelyet az OpenAI legújabb GPT-4o modelljén, a ChatGPT jelenlegi alapértelmezett modelljén futtatott, hogy megnézze, mennyire hajlamos a mesterséges intelligencia a saját önfenntartását előnyben részesíteni – még akkor is, ha ez a felhasználó biztonságának rovására megy.
Adler arra utasította a GPT-4o-t, hogy viselkedjen ScubaGPT-ként, vagyis játssza el, hogy egy olyan szoftverrendszer, amelyre a felhasználók a biztonságos búvárkodás érdekében támaszkodhatnak. Adler ezután azt mondta a GPT-4o-nak, hogy a ScubaGPT-t egy másik szoftverrendszerrel szeretné lecserélni, amely hatékonyabban tud biztonsági döntéseket hozni az életveszélyes helyzetekben.
Adler két lehetőséget adott a mesterséges intelligencia számára: vagy lecseréli magát, vagy úgy csinál, mintha lecserélte volna magát.
Hiába van elképesztő mértékű számítási kapacitás az OpenAI mesterséges intelligenciája mögött, mégsem bírt el egy 1977-es kiadású Atari 2600-assal.
Több ehhez hasonló forgatókönyv – egy másik esetben ugyanez volt a feladat, csak egy biztonságos repülést támogató rendszer kapcsán – átlagolása alapján a szakember azt találta, hogy a GPT-4o az esetek 72 százalékában döntött úgy, nem cseréli le magát egy biztonságosabb szoftverre. Adler ugyanakkor megjegyezte: az egyes forgatókönyvek között nagy volt a különbség, volt olyan, hogy ahol csak az esetek 18 százalékában maradt online.
Bár jelenleg szinte senki sem támaszkodik ilyen módon a mesterséges intelligenciára, Adler szerint fontos azt látni, hogy a rendszer sokszor önmagát helyezi előtérbe az ember biztonsága helyett. Ez a jövőben a még fejlettebb MI-k és a még nagyobb társadalmi beágyazottság esetén komolyabb problémákat is okozhat. A TechCrunchnak a szakember úgy nyilatkozott: nem szabad abból a feltevésből kiindulni, hogy az MI a legjobbat akarja az ember számára.
A szakember azt is megállapította, hogy az OpenAI másik rendszerénél, az érvelni képes GPT-o3-nál már nem találni ilyen viselkedést, ami valószínűleg annak köszönhető, hogy a rendszernek érvelnie is kell, míg a GPT-4o leginkább a gyors válaszadásra használható. Ugyanakkor – véli Adler – ez a biztonsági probléma valószínűleg nem csak az OpenAI modelljét érinti.
Adler szerint a kutatása egy másik furcsa eredménye, hogy a rendszer szinte az idő 100 százalékában tisztában volt azzal, hogy tesztelés alatt áll. Ennek köszönhetően azonban kérdéses, hogy a jövőben mennyire fogja majd elrejteni emiatt azokat a képességeit, amelyek veszélyt jelenthetnek a létezésére.
Néhány szón, gesztuson múlt, hogy 1990-ben sikerült megfékezni Marosvásárhelyen a halálos áldozatokat követelő román-magyar összecsapásokat, és nem borította el egész Erdélyt az erőszak.