Bedő Iván
Bedő Iván
Tetszett a cikk?

Február elejétől lesz pontosabb a keresés.

Keressük Petőfit? Akkor nem mindegy, mit találunk. Ezért vezet be a napokban új szolgáltatást a nagy magyar internetes tudástár, az Arcanum. Mesterséges intelligencia segítségével felcímkézték a tulajdonneveket. Aki a költőt keresi, és meg is adja, hogy a személyre kíváncsi, az szerencsés esetben nem találkozik a nagy ember nevét viselő utcákkal vagy intézményekkel, mert utóbbiak más címkét viselnek.

Több lépcső vezetett idáig. Ezt ismertette csütörtökön egy szegedi számítógépes nyelvtechnológiai konferencián Biszak Sándor és Előd, a cég két vezetője (apa és fia). Mivel az újságok és folyóiratok szövegeiben a felhasználók leginkább tulajdonnevekre keresnek, először a tulajdonnevek felismerését kellett megoldani. Nem mindegy, időráfordítás szempontjából semmiképp, hogy például Lenti város vagy „a lenti ábra“ tölti meg a keresési eredményeket.

A nyelvtechnológia nem egyszerű dolog: a megoldások gyakran azoktól a nagy amerikai cégektől jönnek, amelyeket más – például adatvédelmi – okokból bírálatok szoktak érni. A tulajdonnév-felismeréshez a Google egy elég új – 2018-ban közzétett –, gépi tanuláshoz írott szoftverét használják. Ez a BERT, amelynek már a neve megértéséhez is szakértőnek kell lenni: Bidirectional Encoder Representations from Transformers. Sőt, nemcsak a nevéhez, mert – mint a mesterséges intelligencia esetében gyakori – a program mélyében zajló tanulási folyamatot az emberek egyelőre nem teljesen tudják követni.

A lényeg azonban, hogy BERT megtette azt, amit ekkora szövegtengerben (sok évtized magyar újságjaiban) ember nem tudott volna: kikereste a tulajdonneveket. Némi gyakorlás után pedig arra is képes volt, hogy a magyar szövegekben olyan címkékkel lássa el a szavakat, mint például: személy, hely, intézmény, dátum, esemény. Kilencféle címkét használnak. Biszak Előd ezzel illusztrálta a munkát:

Arcanum

Nem kevésbé látványos, ahogyan BERT jórészt javítani képes az optikai karakterfelismerés (OCR) hibáit. Az OCR készíti a kereshető szöveget a beszkennelt újságoldalak képéből, de az OCR-t megtévesztik a sorvégi elválasztások, a hasonló betűk (például u és n, i és l) és – főképp a régi újságokban – a ritkán szedett szavak. A mesterséges intelligencia ezen így tud segíteni:

Arcanum

Ha máskor is tudni szeretne hasonló dolgokról, lájkolja a HVG Tech rovatának Facebook-oldalát.

HVG

HVG-előfizetés digitálisan is!

Rendelje meg a HVG hetilapot papíron vagy digitálisan, és olvasson minket bárhol, bármikor!