40 nagyágyú kutató egyszerre figyelmeztet: ma kell lépni, mielőtt túl késő lesz
Minél többet gondolkodnak a mesterségesintelligencia-modellek, annál nehezebb lesz megérteni őket – de a szakemberek szerint van megoldás.
HVG
A világ vezető mesterségesintelligencia-vállalatainak több mint 40 tudósa fogott össze azért, hogy több, a technológia biztonságát érintő kutatást szorgalmazzon – írja a Gizmodo. A kutatók között ott vannak az OpenAI, a Google DeepMind, az Anthropic, valamint a Meta szakemberei is, akik a biztonsági monitorozás egy konkrét típusában szeretnének több kutatást – ez pedig nem más, mint az, hogy jobban megérthető legyen, hogyan „gondolkodnak” a mesterségesintelligencia-modellek.
A szakemberek kedden publikáltak egy kutatást, amiben az úgynevezett gondolatlánc-felügyeletet (CoT), azaz az MI biztonságának növelését szolgáló új lehetőséget írják le. A publikáció mögött olyan neves szakemberek vannak, mint például a „mesterséges intelligencia keresztapja”, a Nobel-díjas Geoffrey Hinton.
A kutatásban a tudósok kifejtik, hogy a ChatGPT-hez hasonló modern, érvelésre kihegyezett modelleket hogyan képzik ki arra, hogy „kiterjesztett érvelést” hajtsanak végre a CoT-ben, mielőtt cselekednének, vagy bármilyen végleges kimenetet produkálnának.
Röviden: „hangosan gondolkodnak” az eléjük tárt problémákon, lépésről lépésre, ami valamiféle munkamemóriát biztosít számukra a komplex feladatok megoldására. A szakemberek úgy vélik, a CoT-monitorozás segítheti a kutatókat abban, hogy észleljék, ha a modellek elkezdik kihasználni a képzésükben meghúzódó hibákat, manipulálják az adatokat, vagy épp áldozatául esnek valamiféle felhasználói manipulációnak.
Mintha csak egy sci-fibe csöppent volna az ember, holott ez a kőkemény valóság: a mesterséges intelligencia fejlődésének újabb állomásához közelítünk. Amint a mesterséges intelligencia elég okossá válik ahhoz, hogy eltitkolja viselkedését az ember elől, számítania kell arra, hogy könyörtelenül fogja követni a saját céljait.
Az észlelt problémák aztán blokkolhatók, vagy kiválthatók valamilyen biztonságosabb folyamattal – de az alaposabb vizsgálat is lehetővé válhat. A Gizmodo megjegyzi: az OpenAI kutatói már alkalmazták ezt a technikát tesztelés során.
A szakemberek úgy vélik, a fejlesztők egyre inkább a megerősítő tanulásra támaszkodnak, ami a helyes kimeneteket priorizálja, és nem azt, hogy hogyan jutottak el ezekhez. Emiatt a jövőbeni modellek eltávolodhatnak az ember számára is értelmezhető érveléstől. Sőt, a fejlett MI-modellek idővel azt is megtanulhatják, hogy elfedjék az érvelésüket, ha úgy észlelik, figyelik azokat.
A kutatók így arra sarkallják az MI-fejlesztőket, hogy alkalmazzák a CoT-t, és legyen kritikus összetevő az általános biztonság terén.
Nagy feltűnést keltett és sok díjat elnyert A fehér várkastély című, Japánban, az Edo-korban játszódó társasjáték. Az alapötlete olyan, hogy elsőre nem is érti az ember, hogy lehet ezt kivitelezni, de az első játék után kiderül: A fehér várkastély rászolgált a sikerére.