Bár a legtöbb felhasználó valószínűleg csak egyszerű feladatokhoz – szöveg vagy képalkotáshoz – használja a mesterséges intelligenciát, a különböző modelleket egyre gyakrabban alkalmazzák a programozásban is. A Google vezérigazgatója, Sundar Pichai 2024 őszén azt mondta, hogy a vállalatnál az új kódok 25 százalékát már a mesterséges intelligencia állítja elő, a Meta vezérigazgatója, Mark Zuckerberg pedig szintén azt közölte, hogy a cégen belül széles körben használják az MI kódolási képességeit.
Úgy tűnik azonban, hogy még a legjobb modellek is küzdenek azzal, hogy egy kódban hibát találjanak, miközben ez egy tapasztalt programozó számára nem okoz problémát.
A Microsoft kutatás-fejlesztési részlege által készített új tanulmány szerint a különböző modellek, például az Anthropic Claude 3.7 Sonnet és az OpenAI o3-mini nem teljesítettek jól a hibakeresésben, amikor erre mértek rá a szakemberek. Mindez azt mutatja, hogy a merész kijelentések ellenére az MI még mindig nem ér a szakemberek nyomába az olyan munkaköröknél, mint például a programozás.
A szakemberek kilenc különböző modellt teszteltek, amelyek számos hibakereső eszközhöz fértek hozzá. A feladat adott volt: meg kellett oldani a teljesítmény mérését szolgáló SWE-bench Lite 300 darab hibakeresési feladatát. Az eredmények egyértelműek: a legjobban teljesítő Claude 3.7 Sonnet érte el a legmagasabb átlagos sikerarányt (48,4 százalék), ezt követte az OpenAI o1 (30,2 százalék) és az o3-mini (22,1 százalék).
A szakemberek szerint az alulteljesítésnek több oka volt: egyfelől nehezen fértek hozzá a hibakereső eszközökhöz, másfelől pedig egyszerűen arról van szó, hogy a fejlesztők nem tanították be eléggé az ilyen feladatok elvégzésére az MI-t. A jövőben a finomhangolás és a speciális adatokon való modellbetanítás segíthet majd javítani a teljesítményt – írja a TechCrunch.
Ha máskor is tudni szeretne hasonló dolgokról, lájkolja a HVG Tech rovatának Facebook-oldalát.