szerző:
HVG
Tetszett a cikk?

Az Apple mesterséges intelligenciával foglalkozó kutatócsoportja azt vizsgálta, hogyan képesek kezelni a matematikai érvelési feladatokat a vezető nagy nyelvi modellek (LLM). Arra az eredményre jutottak, hogy közel sem biztos, hogy ezek a rendszerek olyan okosak, mint amilyennek tűnnek.

Azt hihetnénk, hogy a mesterséges intelligencia szinte mindent tud, azonban időnként kiábrándító jelentések érkeznek a képességeikről. Ezek közé tartozik az Apple MI-kutatócsoportjának friss tanulmánya is, amely jelentős hiányosságokra mutatott rá a nagy nyelvi modellek (LLM-ek) érvelési képességében.

A kutatók több vezető nyelvi modellt is megvizsgáltak, beleértve az OpenAI, a Meta és más jelentős fejlesztők modelljeit (OpenAI o1, GPT 40, Meta LlaMa, Google Gemma-2 stb.). Arra voltak kíváncsiak, hogy mennyire képesek kezelni ezek a modellek a matematikai érvelési feladatokat. Az eredmények kissé meglepőek voltak. Arra jutottak ugyanis, hogy elég volt csak csekély változtatás a kérdés megfogalmazásában, és máris jelentős volt az eltérés a modell válaszában. Ez viszont alááshatja a MI megbízhatóságába vetett hitet, amikor következetes logikáról lenne szó.

Kiderült például, hogy a pontosság néhány százalékponttal csökkent, ha egy kérdésben módosultak a nevek és a változók. Azonban a kutatók megjegyezték, hogy az OpenAI modelljei jobban teljesítettek, mint a többi nyílt forráskódú modell. Ettől függetlenül az eltérést „nem elhanyagolhatónak” ítélték, ami azt jelenti, hogy ennek nem kellett volna bekövetkeznie.

A dolgok akkor váltak igazán érdekessé, amikor a szakemberek „látszólag releváns, de végső soron lényegtelen kijelentéseket” adtak a keverékhez. Az egyik egyszerű matematikai feladatban az volt a kérdés, hogy hány kivit gyűjtött össze több napon keresztül egy ember. Amikor viszont hozzáadtak a kérdéshez néhány, a kivi méretével kapcsolatban irreleváns részletet (például hogy néhány kiwi kisebb volt), az LLM-ek hajlamosak voltak kivonni a kisebb kiwiket az egyenletből, ugyanis nem értették meg, hogy a méret irreleváns a probléma szempontjából. Ez azt jelzi, hogy „a modellek hajlamosak az állításokat műveletekké konvertálni anélkül, hogy valóban megértenék a jelentésüket”. Ez pedig igazolja a kutatók azon feltevését, hogy az LLM-ek mintákat keresnek az érvelési problémákban, ahelyett, hogy megértenék a koncepciót.

HVG Ai4 – a mesterséges intelligencia számokban mérhető eredményei az üzletben

Megjelent a HVG mesterséges intelligenciával foglalkozó kiadványának negyedik száma.

 „A jelenlegi LLM-ek nem képesek valódi logikus érvelésre, ehelyett megpróbálják megismételni a képzési adataikban megfigyelt érvelési lépéseket” – írják a kutatók, hozzátéve, hogy mindez aggasztó jel a jövőbeli mesterséges intelligencia-alkalmazások számára, amelyektől következetes, pontos érvelést várnánk el. Az Apple szerint a mesterséges intelligenciának kombinálnia kellene a neurális hálózatokat a hagyományos, szimbólum alapú érveléssel, hogy pontosabb döntéshozatali és problémamegoldó képességeket nyerjen.

Ha máskor is tudni szeretne hasonló dolgokról, lájkolja a HVG Tech rovatának Facebook-oldalát.

HVG

HVG-előfizetés digitálisan is!

Rendelje meg a HVG hetilapot papíron vagy digitálisan, és olvasson minket bárhol, bármikor!