60 év csúszásban vannak a fordítóprogramok, de már a magyar nyelvet is kezdik megszeretni

A neurális hálózatok segítségével sokkal jobb fordításokra képesek a gépek – immár magyar nyelven is –, ám az emberi fordítók teljesítményének eléréséhez gondolkodásra is szükség lenne.

60 év csúszásban vannak a fordítóprogramok, de már a magyar nyelvet is kezdik megszeretni

„A beszéd által gondolatokat közvetítünk.” 1954. január 7-én egyebek mellett ezzel a mondattal demonstrálták New Yorkban az IBM és a Georgetown Egyetem kutatói, mire képes az általuk készített fordítógép. A kezdetleges masina mindössze hat nyelvtani szabály és 250 szó ismeretében képes volt több tucat egyszerű orosz mondatot angolra fordítani. Az egyetemi csapat vezetője, a nagy tekintélyű nyelvész, Léon Dostert akkor „kész tényként” jelentette be, hogy 3–5 éven belül elkészülnek a tökéletes fordítógépek is. Az élet azonban alaposan rácáfolt a magabiztos jóslatra.

A nyelvtani szabályok – és a rengeteg kivétel – betáplálásán alapuló módszerekről hamarosan kiderült, hogy bizonyos szint felett áttekinthetetlenek, ráadásul kevéssé életszerű eredményre vezetnek. Ezért az 1980-as évektől inkább azzal próbálkoztak, hogy nagy mennyiségű, emberek által fordított kétnyelvű szöveghalmazt (először például a kanadai parlament angol–francia dokumentumait) adtak meg a gépeknek, amelyek aztán ezekben az úgynevezett korpuszokban valószínűségi statisztikai alapon építettek fordítási rendszereket. Ez a módszer terjedt el egészen a legutóbbi évekig, és bár jóval hatékonyabb volt a korábbinál – mert nagyobb arányban ismert fel szókapcsolatokat, akár mondatrészeket, egyes szűkebb szakterület szókincsére pedig tanítani lehetett –, sok gyengéje is akadt. Például nem veszi figyelembe a szövegkörnyezetet, és minden kifejezésnek a legalapvetőbb vagy legnépszerűbb jelentését részesíti előnyben.

60 évvel később

Az így elért eredményeken javított ugrásszerűen az, hogy 2014-ben – hat évtizeddel az első orosz–angol fordítógép bemutatása után – ezen a területen is használni kezdték a képfelismerésben és számtalan más területen már sikeres, az agy működését utánzó úgynevezett mesterséges neurális hálózatokat. Alig néhány év alatt „kiütéssel” győzték le ezek az új algoritmusok a statisztikai alapon működőket, és a tavalyi év során az összes nagy gépi fordítószoftver átállt erre. Ezt a sikert azzal érték el a neurális hálózatok, hogy „a forrásnyelvi szövegek szavait a fordítás előtt úgy dolgozzák fel, hogy a szavak összes előfordulását (a környezetükkel együtt) egy komplex vektorban rögzítik” – magyarázza Váradi Tamás, az MTA Nyelvtudományi Intézete nyelvtechnológiai kutatócsoportjának vezetője. Mivel így az algoritmus nem csupán betűsorokat jegyez meg, hanem a szavak használati körét is, „sokkal jobban tudja kezelni az egyik alapvető problémát, a többértelműséget”. Azáltal pedig, hogy egyszerre egész mondatokat tekint át, ügyesebben veszi észre az egymástól távolabb álló, de összefüggő részeket, vagyis koherensebb fordítások készülhetnek.

hvg.hu

Ezek a tulajdonságaik segítették a neurális fordítóprogramokat, hogy a kutatók áttörést érhessenek el velük a magyar nyelv terén is. Korábban ugyanis a magyar szöveg rendre kifogott a szabályalapú vagy a statisztikai modelleken. Egyebek mellett azért, mert a mondatszerkezete gyökeresen eltér az indoeurópai nyelvekétől (a szórend sokkal variábilisabb), másrészt a ragozás és a szóösszetételek gazdagsága miatt ebben több nagyságrenddel nagyobb számban képezhetők szóalakok, mint más nyelveken. Ezért sem használták az Európai Bizottság Fordítói Főigazgatóságának (DGT) magyar munkatársai azt a kontinensen a legnagyobb szabású, kifejezetten számukra fejlesztett gépi fordítási rendszert, az MT@EC-t, amely statisztikai alapon adott fordítási javaslatokat. Egészen tavaly november közepéig, amikor angol–magyar nyelvpárra is beüzemelték a neurális rendszert. A két magyar kutató – a MorphoLogic Kft.-től Tihanyi László, illetve az MTA Nyelvtudományi Intézetétől Oravecz Csaba – által felturbózott szoftver már prototípusként is sikert aratott, és a DGT fordítói ragaszkodtak hozzá, hogy azonnal használhassák – meséli Váradi.

Ezzel az algoritmussal egyelőre csak az EU-s szakfordítók dolgozhatnak, de a nagy techcégek is kínálnak ma már ingyenesen elérhető, a korábbiaknál valóban meggyőzőbb neurális fordítórendszereket, mint a több mint száz nyelvvel zsonglőrködő Google Translate, a Facebook, az orosz Yandex és a Microsoft is. Vagy például a kevésbé ismert, de a nagy cégeket lepipálni látszó német DeepL, amely tavaly nyár végén rukkolt elő jelenleg hét európai nyelven (magyarul még nem) működő szolgáltatásával. Ennek korpusza nagyrészt szintén az EU-s anyagok sok milliárd oldalnyi szövegtengerére épül, és saját tesztjeik szerint háromszor megbízhatóbb, mint a versenytársak megoldásai. Bár a DeepL a Le Monde párizsi napilap kísérlete szerint is jobban teljesít (ha nem is „háromszor”), mint más kereskedelmi alkalmazások, a neurális hálózatok korántsem hozták még el a fordítókánaánt.

Az élőbeszédes fordításra képes Google Pixel Buds fülhallgató bemutatója. Velünk élő science-fiction
AFP / Elijah Nouvelage

Ezek az algoritmusok is csak mondatokat fordítanak, vagyis – róják fel a kritikusok – nem látják még a rövidebb szövegek összefüggéseit sem, nem „emlékeznek” az előzményekre, a szövegkörnyezetre, nem látják az oksági kapcsolatokat. Meggyűlhet a bajuk már a ritkább szavakkal, kifejezésekkel, sőt a hosszabb, bonyolultabb mondatokkal is. Ráadásul a hibák felismerése is nehezebb a neurális hálózatok esetében, mivel nemcsak a sikeres fordítások olvashatóbbak, mint a statisztikai modellekkel készültek, hanem a sikertelenek is, ez pedig megtévesztő lehet ellenőrzéskor – hívja fel a figyelmet Kis Balázs, a fordítástámogató memoQ szoftvert fejlesztő, gyulai székhelyű Kilgray Zrt. egyik alapítója. A tévedéseket javítani sem egyszerű, mert a „mélytanulásos” módszerrel (vagyis számtalan példa alapján önállóan) fejlődő algoritmusokról még a készítőik sem tudják, hogy működés közben mit miért csinálnak.

További hátrányként említi Kis Balázs, hogy a neurális fordítógépeknek a betanuláshoz és a működéshez a korábbiaknál jóval nagyobb teljesítményű komputerekre van szükségük. Nem véletlen például, hogy a DeepL azzal dicsekszik, az alkalmazásának hátterét adó, Izlandra telepített masina a világ 23. legerősebb szuperszámítógépe lenne.

Nem csak lóerőből van kevés

Sokszor azonban nem számítási kapacitásból van hiány, hanem olyan „tréningszövegekből”, amelyekkel be lehetne tanítani az algoritmusokat. Miközben ugyanis angolra rengeteg más nyelvből fordítottak szövegeket és viszont, ritkább nyelvpárokhoz (mondjuk görög–urdu) nehéz megfelelő méretű korpuszokat létrehozni. Ilyenkor szükség van egy közvetítő nyelvre, jellemzően az angolra, ám az áttételen keresztül készült fordításokban hatványozott a hibalehetőség. Amúgy a megfelelő méretű korpusz sem garancia a minden szempontból kielégítő eredményre: az EU-s anyagokon edződött algoritmusoknak igen nehéz megtanulniuk például a tegeződő vagy akár az élőbeszédi fordulatokat. Ezért is egyre gyakoribb, hogy célirányosan tanítanak egy-egy programot valamely szakterület szókincsére, de például a Microsoft fejlesztői a Skype-ot kifejezetten a hétköznapi, gyors és tömör párbeszédekben előforduló mondatokra tréningezték.

Valódi megoldást azonban nem a korpuszok méretének növelése jelentene, hanem az, ha a gépek értenék is, amit fordítanak – hangsúlyozta pár napja a The Atlantic amerikai magazinban A Google Translate felszínessége címmel megjelent írásában a mesterséges intelligencia kutatásának doyenje, Douglas Hofstadter. Szerinte, amíg az algoritmusok a szavakat egy másik nyelv szavaihoz kötik, nem pedig gondolatokhoz, képekhez, tapasztalatokhoz – magyarán: nem érzékelik a szöveg mögötti valóságot –, addig nem szabad csodálkozni, ha még egy viszonylag egyszerű élethelyzetet sem képesek a fordítás szintjén reprodukálni.

Ettől persze sokan örülhetnek, hogy még ha nem is kapnak szépirodalmi fordításokat az internetes alkalmazások segítségével, de képesek kihüvelyezni általuk nem beszélt nyelveken megfogalmazott gondolatok lényegét. A profi fordítókra pedig jó ideig – ha másként nem: minőségellenőrként – biztosan szükség lesz. Az Európai Bizottságnak dolgozó stáb tagjai sem teljesen automatizált fordításokat gyártatnak a novemberben átadott új szoftverrel, hanem a szakmában régóta elterjedt fordítástámogató programokhoz hasonló eszközként kezelik, amely a korábbi megoldások alapján sok esetben képes használható opciókat felajánlani, de a döntést a felhasználó hozza meg.