2023. november. 16. 15:03 Tech

Van egy kis gond: olyan gyorsan tanul a mesterséges intelligencia, hogy 2026-ra már nem lesz mivel tovább tanítani

Az előrejelzések szerint már nincs olyan sok adat, amellyel jó minőségű mesterséges intelligenciát lehetne fejleszteni. Ötlet van arra, hogyan lehetne megoldani a helyzetet, de az kérdéses, hogy mikorra sikerülhet.

Ahogy a mesterséges intelligencia (MI) egyre népszerűbbé válik, a kutatók egyre inkább arra figyelmeztetnek, hogy az iparág kifogyhat abból a (minőségi) adatkészletből, melyen ezeket a rendszereket be lehet tanítani. Ez nemcsak lelassítja az MI-modellek – különösen a nagy nyelvi modellek – növekedését, de

akár az MI-forradalmat is letérítheti a pályájáról.

De miért jelent problémát az adatok esetleges hiánya, tekintve, hogy mennyi új keletkezik folyamatosan? És van-e mód a kockázat kezelésére? Erről írt a The Conversationön megjelent cikkében Rita Matulionyte, az ausztrál Macquarie Egyetem tudósa.

Ami biztos: sok adatra van szükségünk a hatékony, pontos és kiváló minőségű algoritmusok betanításához. A ChatGPT-t például 570 GB szöveges adaton, azaz körülbelül 300 milliárd szón képezték ki. Hasonló a helyzet a stabil diffúzió (Stable Diffusion) – ez egy gépi tanulási modell – esetében, melyet az 5,8 milliárd kép-szöveg párból álló LIAON-5B adatkészleten tanítanak be. Ilyen algoritmus dolgozik az olyan képgeneráló MI-k mögött, mint a DALL-E, a Lensa vagy a Midjourney.

HVG AI 2 - mesterséges intelligencia
Megjelent a HVG mesterséges intelligenciával foglalkozó kiadványának második száma.

Ezek mind jó minőségű adatok, ami azért fontos, mert ha az adatkészlet rossz, akkor az MI is silány lesz. A rossz minőségű adatok – például Facebook-bejegyzések, vagy elmosódott képek – egyszerűen nem elegendők a tanításhoz.

A közösségi oldalakról vett bejegyzések szövegei elfogultak lehetnek, hamis információt vagy illegális anyagot tartalmazhat jelentős mennyiségben. Ezeket a modell azután reprodukálná. (Például ez történt akkor, amikor a Microsoft próbálta a Twitter-bejegyzésekkel kiképezni a rendszerét: az MI nőgyűlölő és rasszista lett.)

Ez az oka annak, hogy az MI fejlesztői csak kiváló minőségű adatokkal dolgoznak. Ilyenek lehetnek a könyvek, tudományos cikkek, Wikipédia-oldalak, vagy bizonyos megbízhatónak minősített – például újságírói elvek mentén készülő – weboldalakról származó tartalmak. A Google digitális asszisztensét 11 ezer romantikus regényen képezték ki, amit a Smashwords nevű oldalról vettek át.

Ezek alapján joggal merülhet fel a kérdés: van elég adatunk?

Turbót kapott a ChatGPT mögötti mesterséges intelligencia, sokkal többre képes új nyelvi modellt jelentett be az OpenAI
Hétfőn tartotta nagyszabású fejlesztői konferenciáját a ChatGPT mögött álló OpenAI. Ott mutatták be az új, GPT-4 Turbo nyelvi modellt is. Ez, fedélzetén megannyi újítással és fejlesztéssel, már elérhető a fejlesztők számára.

Matulionyte szerint az MI fejlesztői egyre nagyobb adatkészleten tanítják a rendszereiket, ezért tudnak olyan eszközök megjelenni, mint a ChatGPT vagy a Dall-E 3. Ugyanakkor a kutatások azt mutatják, hogy az online adatállományok sokkal lassabban nőnek, mint amire szükség lenne.

Egy, az arXiv preprint szerveren 2022-ben megjelent tanulmányban a kutatók azt jósolták, hogy akár már 2026 előtt kifogyunk a jó minőségű szöveges adatokból, ha a jelenlegi képzési trendek folytatódnak. Becslések szerint az alacsony minőségű nyelvi adatok valamikor 2030 és 2050 között, a gyenge minőségű képadatok pedig 2030 és 2060 között merülnek ki.

A PwC becslései szerint a mesterséges intelligencia 2030-ig akár 15,7 billió amerikai dollárral járulhat hozzá a világgazdasághoz. A használható adatok hiánya azonban csökkentheti a fejlesztés ütemét.

Matulionyte ugyanakkor arra is emlékeztet: mindezek ellenére a helyzet talán nem olyan rossz, mint elsőre tűnik. Egyelőre sok ismeretlen tényező van azzal kapcsolatban, hogy az MI-modellek hogyan fognak fejlődni, és van néhány módszer arra, hogy kezeljük az adathiány jelentette esetleges kockázatot.

Kipróbálták, és 100 százalékban kiszúrja az új mesterséges intelligencia, ha egy dolgozatba besegített a ChatGPT
A Kansasi Egyetem kutatói ahelyett, hogy általános megoldást kerestek volna a mesterséges intelligencia kiszűrésére a tudományos munkákban, olyan algoritmust fejlesztettek, ami a kémiával kapcsolatos cikkekre fókuszál. Az eredmény lenyűgöző.

Az egyik lehetőség, hogy az algoritmusok hatékonyabban használják fel az adatokat. A jövőben valószínűleg kevesebb adat is elég lehet a nagy modellek képzéséhez – ezzel mindenképpen nyerni lehet még egy kis időt. És egyébként az MI karbonlábnyoma is csökkenne.

A másik lehetőség, hogy szintetikus adatokat használnak, vagyis a fejlesztők saját maguk állítják össze az adatkészletet, amivel az MI-t tanítani lehet. Emellett szintén egy lehetőség, hogy azokat az adatokat, szövegeket használják fel a modellek, amik még az internet előtt jelentek meg. Ehhez a nagy tudományos kiadókkal kell megegyezni.

Hogy melyik lesz a járható út, egyelőre nem tudni. Az viszont biztos, hogy valamit gyorsan kell lépni az ügyben, hogy az MI fejlődése ne kerüljön veszélybe.

Ha máskor is tudni szeretne hasonló dolgokról, lájkolja a HVG Tech rovatának Facebook-oldalát.

HVG-előfizetés digitálisan is!

Rendelje meg a HVG hetilapot papíron vagy digitálisan, és olvasson minket bárhol, bármikor!

Megnézem az ajánlatokat

A címlapról ajánljuk

Köves Gábor

„Nem köptem be a gyilkost” – Chazz Palminteri a Közönséges bűnözőkről, a Bronxi meséről és egy gyilkosságról

Magyar Péter: Felszólítom a bűnüldöző szerveket, hogy haladéktalanul indítsanak vizsgálatot O. Viktor Mihály ellen

Facebook- és TikTok oldalát is eltüntette George Simion a román elnökválasztás hajrájában

A kampányhajrában írt nyílt levelet az erdélyi magyaroknak Simion ellenfele

Jelentkezzen, aki még belénk akarja törölni a cipőjét! – fakadt ki a Sarkadi Balázs akadémikus

Tölgyessy: Megbillenőben a Fidesz, a veszély hatalmas érzete miatt jöttek elő a törvényjavaslattal

A politikai elemző azt mondta Orbán Viktorról beszélve, hogy a bukás veszélye már közvetlen rá nézve.

Lepattant Orbán embere Washingtonban, ahol a magyar szervezetek amerikai finanszírozása után kutakodott

Az amerikaiak a Reuters forrása szerint megtagadták az információk átadását attól tartva, hogy Orbán azokat a független média és a civil szervezetek elleni támadásra használja fel.

Trump hétfőn telefonon tárgyal Putyinnal és Zelenszkijjel is

A budapesti szerb gimisek is megakadályozták a szerb oktatási miniszter látogatását

A Seggs vajon mi? Így butította le a szexről való beszédet a TikTok

Lezárult Tom Cruise akcióhős korszaka Cannes-ban

Beindult a cannes-i versenyprogram és láttunk már sárga mellényes francia tüntetőkről filmet, valamint a huszadik század krónikáját német lányok szemén keresztül.