Olyan alacsony színvonalon megy a beszélgetés a közösségi médiában, hogy emiatt agyrothadás fenyegeti az AI-t

Manapság szinte mindenki fogyasztja a közösségimédia-tartalmakat. Ha ezek alacsony színvonalúak (és az esetek egy jó részében tényleg azok), az előbb-utóbb az emberi agyra is hatással van, sőt már az is kiderült, hogy még a mesterséges intelligenciát is butíthatja.

  • HVG

A nagy nyelvi modelleket (LLM) érintő agyrothadási hipotézisnek nevezik amerikai kutatók a feltételezésüket, mely szerint „a webes szemétszövegeken való folyamatos előzetes tanulás tartós kognitív hanyatlást okoz az LLM-ekben”. De miről is van szó?

A Texas A&M Egyetem, a Texasi Egyetem (Austin) és a Purdue Egyetem kutatói azon korábbi kutatási eredményekből indultak ki, hogy a nagy mennyiségű, vitatott színvonalú közösségimédia-tartalmat fogyasztó embereknél problémák alakulhatnak ki a figyelemmel, a memóriával és a szociális kognícióval kapcsolatban. Vizsgálatuk arra a kérdésre fókuszált, hogy vajon hasonló lenne-e a helyzet az AI-jal is.

Feltevésük teszteléséhez négy nyílt forráskódú modellt képeztek ki több mint egymillió, az X-ről (Twitter) lemásolt bejegyzésen. Az, hogy mi számít nívótlan, vagy ahogy ők nevezték szemét (junk) szövegnek, megítélés kérdése, éppen ezért szükség volt valamiféle definícióra. A kutatók két különböző csoportot állítottak fel. Az elköteleződésen alapuló szemét rövid, virális posztokból áll, amelyek nagyszámú lájkot és retweetet kapnak. A szemantikus szemét pedig magában foglalja a „szenzációhajhász, kattintásvadász nyelvezetet vagy túlzott mennyiségű, ravasz szavakat használó” címsorokat, vagy azokat, amelyek „felszínes témákra, például összeesküvés-elméletekre, eltúlzott állításokra, alátámasztatlan állításokra vagy felszínes életmód-tartalmakra” összpontosítanak. Ezen osztályozások véletlenszerű mintáját szúrópróbaszerűen három végzés hallgató értékelésével vetették össze, és 76 százalékos volt az egyezés.

Miután a nagy nyelvi modelleket különféle szemét és kiváló minőségű tartalmak keverékein képezték ki, a kutatók standard mesterséges intelligencia benchmarkokkal tesztelték őket. Mérték az érvelési képességet, a hosszú kontextusú megértést, az etikai normák betartását, valamint a személyiségbeli tendenciákat.

Súlyos hibákat tartalmaznak a tesztek, amik megmondhatnák, veszélyes-e a mesterséges intelligencia

Brit és amerikai kutatók szerint hiteltelennek minősülhetnek azok a teszteredmények, amelyeket a mesterséges intelligencia biztonságával kapcsolatban végeztek korábban.

Az eredmények végül igazolták a feltevést. A több szeméttel betanított modellek több vizsgálatban is rosszabbul teljesítettek. Az egyik teszt során például, amikor a szemét adatok aránya 0 százalékról 100 százalékra nőtt, a modell gondolkodási pontossága 74,9-ről 57,2-re esett vissza,. A hosszú kontextusú megértés hasonló visszaesést mutatott: 84,4-ről 52,3-ra. A logikán túl olyan változásokat is észrevettek a modellek viselkedésében, amelyek a személyiségbeli módosulásokra emlékeztettek. A szemétadatoknak kitett modellek kevésbé lettek kellemesek, és jelentősen megnőtt náluk a nárcizmus és a pszichopátia kockázata.

Egyfajta ördögi körbe kerülünk tehát: az AI-képzéshez rengeteg adatra van szükség, viszont a kutatók lassan kifogynak a jó minőségű szöveges tartalmakból. Marad a közösségi média, a számolatlanul ömlő tweetek, és a tartalomkészítésben egyre inkább részt vesz a mesterséges intelligencia. Mindez rontja a mesterséges intelligenciákat, ami viszont rontja az általuk létrehozott tartalmakat, és ezekkel a tartalmakkal képezik a mesterséges intelligenciákat, és így tovább.

A szakemberek most arra figyelmeztetnek, hogy „az internetes adatokra való nagymértékű támaszkodás a tartalomszennyezés csapdájába vezeti az LLM előkészítő képzést”. Egyúttal szigorúbb adatkezelést és minőségellenőrzést sürgetnek, hogy megakadályozzák a mesterséges intelligencia érvelésének és etikájának tartós károsodását.

Ha máskor is tudni szeretne hasonló dolgokról, lájkolja a HVG Tech rovatának Facebook-oldalát.

Hozzászólások