Ismerje meg a Racka-4B-t: egy nagyon gyors, magyar nyelvű érvelő AI-t fejlesztettek az ELTE-n

Az ELTE Informatikai Kar Mesterséges Intelligencia Tanszékének kutatói a Digitális Örökség Nemzeti Laboratóriummal együttműködésben először tanítottak magyarra nagy érvelő nyelvi modellt. A mesterséges intelligencia (AI) mérnökökből és nyelvtechnológusokból álló kilencfős csapat a költséghatékony tanítás során körülbelül 200 millió oldalnak megfelelő szöveget dolgozott fel hazánk legnagyobb szuperszámítógépén.

A magyar akadémiai közösség számára elérhető Komondor HPC infrastruktúrán végzett munkájuk eredményeként a Racka-4B modell teljesítménye a magyar nyelvi feladatokban a kétszer akkora (8 milliárd paraméteres) modellek teljesítményével is összemérhetővé vált, sebessége pedig jócskán meghaladta azokét.

A globális technológiai óriások által fejlesztett nyelvi modellek, bár hatalmasak, a magyar nyelvvel és kultúrával még gyakran meggyűlik a bajuk – hangsúlyozza közleményében az ELTE. Ennek egyik oka, hogy a magyar morfológiailag egy rendkívül gazdag nyelv: szavaink sok ragot, jelet, képzőt hordoznak, így egyetlen szóalakban rengeteg információ sűrűsödhet össze. Ráadásul nincs olyan, a magyarhoz közeli rokon nagy világnyelv, amelynek digitális jelenléte – technológiai értelemben – magával húzná a magyart. Ha viszont ezek a rendszerek nem értik és beszélik elég jól a nyelvünket, nem integrálják a régió kultúráját és történeti tudását, vagy akár a hazai jogszabályokat, a jogi szaknyelvet, akkor Magyarország több téren is hátrányba kerülhet. Ahhoz, hogy a régió megőrizze digitális szuverenitását, elengedhetetlen a saját adatokon tanított technológia.

Erre a kihívásra válaszul született meg korábban a Puli modellcsalád, a technológia gyors fejlődésével azonban megjelent az igény az összetettebb, úgynevezett érvelő (reasoning) képességgel rendelkező rendszerek fejlesztésére is. A kutatók szerint ezt az űrt tölti be most a Racka. A modell egy nyílt forráskódú, Qwen3-4B alapokon nyugvó, úgynevezett paraméterhatékony (LoRA) eljárással magyarított rendszer, amely a korábbi modellekkel szemben logikai és érvelő képességekkel is rendelkezik.

A modell magyarítása több párhuzamos technológiai lépésben történt, melyek közül az egyik legfontosabb a mesterséges intelligencia „szótárának” optimalizálása volt. A nyelvi modellek a szövegeket feldolgozáskor apró egységekre, úgynevezett tokenekre bontják. A döntő arányban világnyelveken tanított nemzetközi modellek szótára azonban alapvetően az angol nyelvre van optimalizálva, ami azt eredményezi, hogy a magyar szavakat túl sok, apró, logikátlan darabra vágják szét.

A kutatócsoport azzal a mérnöki megoldással élt, hogy az eredeti modell mintegy 150 ezer elemből álló szótárából eltávolítottak nagyjából 32 ezer olyan ritka tokent (például bizonyos távol-keleti karaktereket), amelyek a projekt szempontjából lényegtelenek voltak. Ezek helyére pedig kifejezetten a magyar nyelvre optimalizált tokeneket illesztettek be, és úgy hangolták át a rendszert, hogy előnyben részesítse ezek használatát.

Ennek köszönhetően a modell 47 százalékkal kevesebb tokenből tudja felépíteni ugyanazt a magyar szöveget, ami a gyakorlatban azt jelenti, hogy drasztikusan felgyorsult a szöveggenerálás, ráadásul a nyelvtani és ragozási hibák is jelentősen ritkultak.

A modellt összesen 160 milliárd tokennyi adaton tanították tovább.

Bár a fókusz a magyar nyelven volt, az adathalmaznak csak a 44 százalékát tette ki a hazai szöveg, a maradék angol (24%), német (21%), illetve programkód (11%) volt.

A kutatócsoport célja a hazai tudományos szféra támogatása, így a Racka modell kutatási és fejlesztési célokra szabadon, nyíltan elérhető. Fejlesztői szerint sikerét és hiánypótló mivoltát jól mutatja, hogy csak az elmúlt hónapban több mint 600 alkalommal töltötték le a projekt Hugging Face-oldaláról.

A Racka fejlesztésén dolgozó kutatócsoport nem egyetlen modellben, hanem egy egész modellcsaládban gondolkodik, azt tervezve, hogy kilép a kelet-közép-európai regionális piacra is. A nagyobb léptékű, regionális tudást is integráló modellnek az előkészítése és fejlesztése már zajlik, szoros együttműködésben a Mynds.ai céggel. A projektet az újonnan kiépülő európai AI-infrastruktúrán és a barcelonai MareNostrum 5 szuperszámítógépen tervezik megvalósítani.

https://www.youtube.com/watch?v=U7248l4Q7VI

Ha máskor is tudni szeretne hasonló dolgokról, lájkolja a HVG Tech rovatának Facebook-oldalát.

Hozzászólások

Sulyok Tamás az utolsó aláírásával véget vet az államfői megbízatásának is – volt-e más választása és mi történik ezután?

„Nincsenek háttéralkuk” – üzente Tarr Zoltán Orbán János Dénesnek, miután az író felajánlotta, hogy visszavásárolná a műveit

Kollégáira vallott és beismerő vallomást tett a Szőlő utcai javítóintézet volt rendészeti vezetője, aki véresre verte és még a betegágyán is bántotta áldozatát

Ismerje meg a Racka-4B-t: egy nagyon gyors, magyar nyelvű érvelő AI-t fejlesztettek az ELTE-n

Vb-bronzmeccs: a résztvevők a pokolba kívánják, mégis szórakoztatóbb, mint a döntők többsége

Vb-Frankenstein: állítsa össze a tökéletes focistát

A Fehér Ház szerint nincs gond azzal, hogy az argentinok a Falkland-szigetekről üzentek a focipályán

Tuchel továbbra sem bán semmit, a kritikákkal sem foglalkozik

Az argentin kapitány legszívesebben bezárná a szobájába a spanyolok fiatal sztárját

Kiderült, milyen hosszúra nyúlik majd a foci-vb döntőjének félidei show-ja

Újraválasztaná Infantinót a FIFA-tagság nagyobb része

És akkor Szijjártó Péter megmutatta, milyen a keleti nyitás

Őrült, tízgólos meccsen vitték el a vb-bronzot az angolok a franciák elől

Lattmann Tamás: Orbán izmozni járt Brüsszelbe

Aki az aranygaluskában találta meg a nemzet egységét – Sulyok Tamás elnökségének megrázó, kínos és abszurd pillanatai

„Kérem megtisztelő bizalmukat” – Forsthoffer Ágnes reagált arra, hogy ideiglenesen ő lesz a köztársasági elnök

Magyar Péter megosztotta, milyen államfőt szeretnének

Sulyok Tamás az utolsó aláírásával véget vet az államfői megbízatásának is – volt-e más választása és mi történik ezután?

Török Gábor: Sulyok Tamás még egyszer bizonyítja, hogy teljesen alkalmatlan volt a feladatára

Magyar Péter: „Elhárult az utolsó akadály”

Political Capital: „Ezt a csatát a kormány megnyerte”

Sok vesztese lesz a forint idei erősödésének, pláne, ha tovább nő a minimálbér

RTL: Néhány percre magára hagyták a fiatalt, aki munka közben beesett egy darálógépbe

Többet árt, mint használ a cukormentes életmód?

Vissza akartam hozni a halott férjemet, amennyire ez az írott szóval lehetséges

„Nincsenek háttéralkuk” – üzente Tarr Zoltán Orbán János Dénesnek, miután az író felajánlotta, hogy visszavásárolná a műveit

Soha ne bízz a süketelőkben! – világsztárokkal teli gengszterfilmben megy a hajsza a Dante-kéziratért

Gergely Márton: Ne válasszunk magunknak billogot?

Sulyok Tamás hosszú haláltusája a Fidesz érdeke

Tóta W. Árpád: Alkotmányozás? Eddig minden rendben

Kollégáira vallott és beismerő vallomást tett a Szőlő utcai javítóintézet volt rendészeti vezetője, aki véresre verte és még a betegágyán is bántotta áldozatát