szerző:
HVG
Tetszett a cikk?

A mesterséges intelligencia tudása sokszor messze felülmúlja az egyénekét, azonban olykor olyan feladatok is kifognak rajta, amelyekkel akár a nagyobb gyerekek is simán elboldogulnak. Skót kutatók kimutatták, hogy a legkorszerűbb MI-modellek nem képesek megbízhatóan értelmezni az analóg óra mutatóinak helyzetét, és sokszor válaszolnak helytelenül a naptárak dátumaira vonatkozó kérdésekre.

Esszéket írnak, kódolnak, kvantumfizikai feladatokat oldanak meg, pillanatok alatt készítenek csodás rajzokat a fejlett mesterséges intelligencia modellek, azonban vannak pofonegyszerűnek tűnő feladatok, amelyek kifognak rajtuk. Ezek közé tartozik az analóg óra számlapjának a leolvasása vagy a naptár értelmezése – derül ki egy skót kutatásból.

Az Edinburghi Egyetem kutatócsoportja a legnépszerűbb multimodális nagy nyelvi modelleket tesztelte, a Google DeepMind Gemini 2.0-t, az Anthropic Claude 3.5 Sonnet-t, a Meta Llama 3.2-11B-Vision-Instructot, az Alibaba Qwen2-VL7B-Instructot, a ModelBest MiniCPM-V-2.6-ot, a GPT-4o-t és GPT-o1-et. A feladat nem volt túl nehéz: különféle típusú órákról mutattak képeket, néhányon arab, néhányon római számmal, másodpercmutatóval és anélkül jelent meg az idő, különböző színűek voltak a számlapok stb. Meglepő módon a fejlett modellek csak a leolvasások 25 százalékában mondták meg helyesen az időt. Leginkább a római számokat és stilizált mutatókat használó órákkal gyűlt meg a bajuk. A helyzet akkor sem javult, amikor eltávolították a másodpercmutatót, ezért a kutatók úgy gondolják, hogy a probléma az órák mutatóinak észleléséből és az óralap szögeinek értelmezéséből adódik.

Ezután következett a naptár-kísérlet. A kutatók 10 év naptári képeit felhasználva olyan kérdéseket tettek fel, mint hogy a hét melyik napján van újév vagy hogy melyik az év 153. napja. Még a legsikeresebb mesterséges intelligencia modellek is hibáztak az esetek 20 százalékában.

A sikerességi arány a használt MI-rendszertől függően változott. A Gemini-2.0 érte el a legmagasabb pontszámot az óratesztben, a GPT-o1 pedig az esetek 80 százalékában tudta pontosan megválaszolni a naptárral kapcsolatos kérdéseket.

Az analóg órák és naptárak megértéséhez térbeli tudatosság, a kontextus és az alapvető matematikai ismeretek kombinációja szükséges, ami továbbra is kihívást jelent a mesterséges intelligenciának.  „Eredményeink rávilágítanak arra, hogy a mesterséges intelligencia egyelőre nem képes az emberek számára alapvető készségeket elsajátítani. Ezeket a hiányosságokat orvosolni kell, ha a MI-rendszereket sikeresen integrálni akarjuk az időérzékeny, valós alkalmazásokba, mint például az ütemezés, az automatizálás és a kisegítő technológiák”– véli Rohit Saxena, az Edinburghi Egyetem Informatikai Karának munkatársa, az egyelőre jóváhagyásra váró tanulmány vezető szerzője.  Aryo Gema, az Edinburgh-i Informatikai Iskola másik kutatója ezt még annyival egészíti ki, hogy a mai mesterségesintelligencia-kutatás gyakran az összetett érvelési feladatokra helyezi a hangsúlyt, de ironikus módon sok rendszer még mindig küszködik, ha egyszerűbb, mindennapi feladatokról van szó.

Ha máskor is tudni szeretne hasonló dolgokról, lájkolja a HVG Tech rovatának Facebook-oldalát.

HVG

HVG-előfizetés digitálisan is!

Rendelje meg a HVG hetilapot papíron vagy digitálisan, és olvasson minket bárhol, bármikor!