2025. március. 26. 13:03 2025. március. 26. 13:29 Tech

Fontos teszteredmény született: ember 60%, mesterséges intelligencia 1%

A jelek szerint a mesterséges intelligencia még közel sem annyira intelligens, mint amilyennek gondolják az emberek. Főleg akkor nem, ha alacsony költséggel kell dolgoznia.

Alan Turing, aki a második világháború alatt feltörte a németek titkosító berendezését, az Enigmát, 1950-ben vetette fel a Turing-teszt ötletét. Ez azt hivatott kideríteni, hogy egy gép képes-e úgy kommunikálni, hogy arról a tesztalany nem tudja eldönteni, hogy ember vagy gép küldte-e az üzenetet. A ChatGPT és a más hasonló rendszerek megjelenésével mára ezt nagyjából sikerült elérni, így a mesterséges intelligencia kapcsán egy másik kérdés merült fel: valójában mennyire intelligens a gép az emberhez képest?

Ennek mérésére a Turing-teszt már nem alkalmas, ezért a neves MI-kutató, François Chollet, az Arc Prize Foundation nevű nonprofit szervezet társalapítója egy másik tesztet fejlesztett ki. Ez lett az ARC-AGI-2, amivel kapcsolatban az is kiderült, hogy az ember még mindig sokkal jobb eredménnyel képes azt megoldani, mint az MI.

Az ARC-AGI tesztek rejtvényszerű feladatokból állnak, ahol az MI-nek vizuális mintákat kell azonosítania különböző színű négyzetekből, és „válaszként” elő kell állítania a helyes rácsot. A feladatok lényege, hogy rákényszerítsék a mesterséges intelligenciát, hogy alkalmazkodjon azokhoz az új problémákhoz, amelyeket korábban nem látott.

A szervezet közlése szerint az olyan érvelő modellek, mint az OpenAI o1-pro és a DeepSeek R1 1 és 1,3 százalék közötti eredményt értek el. A nagy teljesítményű modellek, köztük a GPT-4.5, a Claude 3.7 Sonnet és a Gemini 2.0 Flash, körülbelül 1 százalékon állnak – számolt be róla a TechCrunch.

A szervezet 400 önkéntessel is kitöltette a tesztet, hogy kiderüljön, az ember miként teljesít. Ezek alapján az átlagos eredmény 60 százalékra jött ki – vagyis jóval magasabb lett az eredmény, mint az MI esetében. Chollet az X-en azt írta, az ARC-AGI-2 sokkal pontosabb képet ad a rendszerek intelligenciájáról, mint a teszt korábbi iterációja.

François Chollet on X (formerly Twitter): “Today, we’re releasing ARC-AGI-2. It’s an AI benchmark designed to measure general fluid intelligence, not memorized skills – a set of never-seen-before tasks that humans find easy, but current AI struggles with.It keeps the same format as ARC-AGI-1, while significantly… pic.twitter.com/9mDyu48znp / X”
Today, we’re releasing ARC-AGI-2. It’s an AI benchmark designed to measure general fluid intelligence, not memorized skills – a set of never-seen-before tasks that humans find easy, but current AI struggles with.It keeps the same format as ARC-AGI-1, while significantly… pic.twitter.com/9mDyu48znp

Az új teszt fő előnye, hogy megakadályozza az MI-t abban, hogy a nyers erőre támaszkodva számítsa ki az adott feladat megoldását. Ez a teszt korábbi, ARC-AGI-1 esetében még nem így volt. Ennek érdekében egy új mérőszámot is bevezetett a szervezet: a hatékonyságét. A modelleknek arra is szükségük van, hogy menet közben értelmezzék a mintákat, ahelyett, hogy a memorizálásra hagyatkoznának.

Arc Prize

„A képességek megszerzésének és alkalmazásának hatékonysága kulcsfontosságú, meghatározó összetevő. A feltett alapvető kérdés nem csak az, hogy elsajátíthatja-e a mesterséges intelligencia a feladat megoldásához szükséges készséget, hanem az is, hogy ezt milyen költséggel tudja megtenni” – közölte a szervezet.

Az ARC-AGI-1 benchmark teljesítése sokáig megugorhatatlannak tűnt, az OpenAI azonban 2024 decemberében bejelentette, hogy az o3 modellje 75,5 százalékos eredményt ért el a teszten, ami már az emberi teljesítmény szintje. Most kiderült, ugyanez a rendszer az ARC-AGI-2 esetében csupán 4 százalékot tudott letenni az asztalra. Mindezt úgy, hogy feladatonként 200 dollár – kb. 74 ezer forint – értékű számítási kapacitást kellett mögé tenni.

Az Arc Prize Foundation most egyértelmű felhívást tett az iparág számára: úgy kell elérni a 85 százalékos eredményt a teszten, hogy amögött legfeljebb 0,42 dolláros – kb. 155 forintos – számítási kapacitás áll feladatonként.

Ha máskor is tudni szeretne hasonló dolgokról, lájkolja a HVG Tech rovatának Facebook-oldalát.