Butul a ChatGPT? Vagy mi ez a mellékhatás?

Egyes feladatokban egészen drámai romlást mutat a ChatGPT pár hónap leforgása alatt. Látszik egy magyarázat a jelenségre.

  • hvg.hu hvg.hu
Butul a ChatGPT? Vagy mi ez a mellékhatás?

Az OpenAI által fejlesztett ChatGPT még tavaly novemberben vált elérhetővé a nagyközönség számára, bár egy előzetes prototípust már ezt megelőzően is teszteltek zárt körben. De vajon okosabb lett a népszerű chatbot az elmúlt időszakban? Nos, a válasz meglepő, de úgy tűnik, nem – a Stanford és a Kaliforniai Egyetem kutatói módszeresen elemezték a ChatGPT különböző változatait idén március és június között, az eredmények szerint pedig úgy tűnik, hogy a ChatGPT képességei hanyatlást mutatnak.

A kutatók szigorú teljesítményértékelési módszert dolgoztak ki, hogy felmérjék a chatbot képességeit különböző területeken – ezek az matematikai, kódolási, vizuális készségekre terjedtek ki.

Szintet léphetnek a hackertámadások, elkészült a ChatGPT illegális célokra betanított változata

Különféle támadások végrehajtásában segédkezhet a WormGPT nevű új, mesterségesintelligencia-alapú eszköz, amit a készítői „a jól ismert ChatGPT legnagyobb ellenségének" tartanak. Az ilyen eszközök veszélyeire már az Europol is figyelmeztet.

Mint az eredményeket összegző Decrypt írja, a tesztek egészen döbbenetes csökkenést mutattak be: a prímszámok meghatározására vonatkozó feladatban a ChatGPT márciusban még 500 kérdésből 488-at helyesen tudott megoldani, ami 97,6 százalékos pontosságot jelent – pár hónappal később, júniusban már csak 12-t talált el a chatbot, ami pontosság viszonylatában mindössze 2,4 százalék. Ez hatalmas mélyrepülés, és a szoftverkódolási képességekben is hasonló hanyatlás volt megfigyelhető a vizsgálatok során.

Az eredmények egyes esetekben eltérést mutatnak a ChatGPT-t hajtó nyelvi modellek esetében is: az ingyenes változatban lévő a GPT-3, valamint a prémium csomaghoz járó, valamint a Bing mögött is álló GPT-4 között.

A ChatGPT teljesítménye különböző teszteken 2023 márciusában és júniusában.
UC Berkeley, Stanford

Az érvelés terén már nem volt akkora hanyatlás, de a GPT-4 például hibázott júniusban olyan feladatokban, amelyeket márciusban még simán teljesíteni tudott – derül ki az arXiv folyóiratban publikált tanulmányból.

Joggal vetődhet fel a kérdés: mégis hogyan tudott romlani a ChatGPT teljesítménye néhány hónap alatt? A kísérletet végző kutatók szerint ennek hátterében a fejlesztő, az OpenAI optimalizációja állhat, egészen pontosan annak egyik mellékhatása.

Például az egyik lehetséges magyarázat, hogy a ChatGPT-t már megakadályozták abban, hogy „veszélyes” kérdésekre válaszoljon, ami más feladatokban is megnyilvánulhat.

Ha máskor is tudni szeretne hasonló dolgokról, lájkolja a HVG Tech rovatának Facebook-oldalát.