Pécsi kutatók 200 munkaóra alatt tanították meg egy rendszernek a magyar nyelvet

A magyar nyelvet mindössze 15 millióan beszélik világszerte, így a cégek számára gyakran nem éri meg kifejleszteni a feldolgozásához szükséges szoftvert. A Pécsi Tudományegyetem (PTE) csapata felismerte ezt a problémát, és betanította saját modelljét erre a nyelvre. Viszonylag olcsón, és egész gyorsan.

hvg.hu

Pécsi kutatók 200 munkaóra alatt tanították meg egy rendszernek a magyar nyelvet

A Pécsi Tudományegyetem 2019-ben lépett partnerkapcsolatra a Microsoft Mesterséges Intelligencia Tudásközpontjával, amely után kulcsfontosságú terület lett a mesterséges intelligencia és a felhőalapú oktatás – olvasható a redmondi cég oldalán megjelent közleményben.

Hogy a nagy mennyiségű magyar nyelvű adat kezelése könnyebb legyen, a PTE természetes nyelvfeldolgozási (NLP) módszerek kutatásába fogott. A megoldást egy magyar nyelvű, úgynevezett BERT-large modell (HILBERT) létrehozása jelentette, mely egy nyílt forráskódú gépi tanulásos keretrendszer. A modell célja a Microsoft szerint, hogy segítse a számítógépet a többféleképpen értelmezhető szövegrészek megértésében oly módon, hogy a szövegkörnyezetből kontextust épít.

A csapat az Azure mesterséges intelligencia használata mellett döntött a saját, magyar nyelvű BERT-large modelljük megalkotásához. “A Microsoft piacvezető a nyelvi modellek betanításának területén. Természetes, hogy a legjobb technológiát akartuk használni” – mondta Hajdu Róbert, az Alkalmazott Adattudományi és Mesterséges Intelligencia Központ volt tervezőmérnöke.

Ahelyett, hogy gyenge minőségű adatokat gyűjtöttek volna az internetről, a Nyelvtudományi Kutatóközpont szakemberei segítségével készítették elő az alapokat. Az Azure pedig mindent megkönnyített és felgyorsított.

A modell betanítására szintén gyors és költséghatékony megoldást kerestek: a Microsoft ONNX Runtime DeepSpeed könyvtárát választották a feladathoz, amit az Azure Machine Learning (AML) platformon futtattak. E platform segítségével hatékonyan tudtak haladni a mesterségesintelligencia-modellek építésével, munkába állításával, menedzsmentjével és nyomon követesével. Így a csapat közben olyan más feladatokra koncentrálhatott, mint az adatkezelés.

A modell működéséhez egy legalább 3,5 milliárd szót tartalmazó folyószöveg szükséges. Ezt az adatbázist a Nyelvtudományi Kutatóközpont, a projekt másik résztvevője többek között a Magyar Nemzeti Szótárból, online médiatárakból és az opensubtitles.org ingyenesen hozzáférhető filmfelirat-adatbázis magyar nyelvű anyagai közül gyűjtötte a csapat.

Habár a pandémia alatt mindannyian otthonról dolgoztak, a BERT-large betanítási folyamata az Azure-on semmilyen problémát nem okozott. „200 munkaóra alatt végeztünk. Ez a világon az eddigi legolcsóbb BERT-large. Kevesebb, mint 1000 euróba került” – mesélte Dr. Feldmann Ádám, a PTE Adattudományi és AI csoport vezetője. „Az ONNX Runtime nélkül a HILBERT-large modellünk betanítása 1500 órát, vagyis megközelítőleg két hónapot vett volna igénybe” – hívta fel a figyelmet.

A közlemény szerint a Pécsi Tudományegyetem BERT-large modellje jelentős lehetőségeket rejt magában az írott és beszélt szöveg feldolgozása, az intelligens keresés, az entitásérzékelés, a dokumentációs klasszifikáció terén. A HILBERT emellett

közreműködhet újabb, jobb teljesítményű chatbotok létrehozásában is.

Mindez pedig segítheti a magyarokat a könnyen érthető, releváns információkhoz való hozzáférésben, különösen a Covid–19 körüli félretájékoztatás elleni küzdelemben. Számos egészségügyi és kormányzati szereplő is érdeklődött már a HILBERT-large modell iránt – írták.

Ha máskor is tudni szeretne hasonló dolgokról, lájkolja a HVG Tech rovatának Facebook-oldalát.

Pécsi kutatók 200 munkaóra alatt tanították meg egy rendszernek a magyar nyelvet

„Halálosan unottan indultam neki, de mindig megerőltettem magam” – randifásultságba süppednek az online ismerkedő tömegek

Van élet a kebabon és a turisták tömegén túl: Izmirben csodálkoztunk rá az ismeretlen Törökországra

Orbánt a példaképének tekinti, Trump híve volt a vámvitáig – nagyot nyerhet vele a populizmus Közép-Európában

Több dolog miatt is kilógnak régiós társaik közül a magyar szupergazdagok

Jachtvásárlásra, szvingerklubra, alpakákra jutott az EU-pénzből? – Áll a bál Lengyelországban

Karafiáth Orsolya: A Nagyszínpad felé sétálok, még félkábán. Látom a NER-elitet a tömeg fölé emelkedve

Mit tegyünk, ha gonosz erők irányítják az országunkat?

RTL: Orvosi köpenyből félmilliós szoknya – így jutott a csúcsra Várkonyi Andrea

Matolcsytól kért pénzt fia egyesületének az MNB felügyelőbizottsági tagja

Megbocsátani sohasem fogok – angliai életéről vallott Ágoston László operaénekes-marketinges

„A gyónás nagy marhaság” – Iványi Gábor rendkívüli történeteket hallgat meg új kötetében

Boomer a Szigeten, azaz hosszú út a rocktól a technóig és vissza

A Sziget VIP-részlegében bukkant fel Anya Taylor-Joy és férje

„Gáza éhenhal” – tiltakozó felirat került ki a Széll Kálmán térre

Bige László fia belépett egy Tisza Szigetbe

Orbán Viktor szerint akinek nincs lakása, az nem polgár

Videón, ahogy a falnak löki barátját a Budapesten világbajnoki címet szerző sprinter

Sziklára zuhant egy fiatal a Gellért-hegyen

Öngyilkos lett egy 12 éves lány egy gyerekkórházban, 15 nővért rúgtak ki emiatt

„Matolcsy váltig erősítgette, hogy megvan a pénz, de kidurrant a lufi” – megszólalt a HVG-nek a jegybank felügyelőbizottsági tagja

Megszerezte, amit akart, most elkezdi „védeni” a Balatont a NER

Kemény vizsgával indul az egyetemi tanév: a kollégiumi férőhelyhiány akkora, hogy a kormány már beszélni sem mer róla

HVG Top 50: Gigantikus árbevétel-visszaesés az MVM-nél, a legnagyobb ugrás egy eddig ismeretlen cégé