Szar vas hibák - számítógépes helyesírás-ellenőrzés

Mulatságos melléfogásaik miatt minduntalan internetes szégyenfalakra kerülnek a nyelvi ellenőrző szoftverek, pedig évek óta igyekeznek felnőni a feladathoz.

Szar vas hibák - számítógépes helyesírás-ellenőrzés

Aki jó szórakozást keres egy esős délutánra, az eressze rá a Microsoft Word helyesírás-ellenőrzőjét egy szépirodalmi szövegre, és fogadja el a változtatási javaslatokat – ajánlotta blogjában Geoffrey Pullum amerikai nyelvész. A pár évvel ezelőtti ötlet ma is szórakoztató eredménnyel járhat, bár az efféle szoftverek azóta kétségkívül javultak. Az internetes fórumokon sokat emlegetett kakáspörköltet a program ma már nem ajánlja a kakaspörkölt helyett, és a szarvas szót sem igyekszik ürülékvassá szalonképesíteni.

Illusztrációként véletlenszerűen kiválasztottunk néhány bekezdést egy nem túl sok nyelvi buktatót tartalmazó irodalmi szövegből, a filmváltozata miatt újra előtérbe került, Az ajtó című Szabó Magda-regényből. A két legismertebb magyar helyesírás-ellenőrző – a hazai MorphoLogic Kft. által gyártott, a Microsoft irodacsomagjából ismert Helyes-e? és a Németh László szoftverfejlesztő nevéhez fűződő, szabad forráskódú, a LibreOffice tartozékaként is letölthető Hunspell – egyike sem tett volna nagyon sok kárt a szövegben, de mindkettő szolgált mulatságos, esetenként megmagyarázhatatlannak tűnő javításokkal (lásd Irodalmi felülvizsgálat című táblázatunkat).

A ragokban, képzőkben, szóösszetételekben tobzódó magyar nyelv gazdagságát, bár egyre nagyobbak, nehezen követik az ellenőrző programokba táplált szó-, toldalék- és ragozásgyűjtemények. Pedig a magyar változatba kezdettől fogva nemcsak sokkal nagyobb szóhalmazt kellett beépíteni – a százezres nagyságrendű angol gyűjteménnyel szemben a lehetséges toldalékolt magyar szavak száma milliárdos nagyságrendű –, hanem jóval bonyolultabb nyelvi szabályokat is, idézte fel Prószéky Gábor, a MorphoLogic ügyvezető igazgatója. Mégis, a szó- és mondatellenőrzés mind a mai napig zavarba jön a magyar egybeírás-különírás finomságait látván. A „magyar ember evés közben nem beszél” mondatban az „emberevés” javítást ajánlja, mert fogalma sincs, miben különbözik a mondatban szereplő két szó a hasonlónak tűnőktől, például a kútásástól – hoz példát Prószéky. Azt sem tudja, csak sejti, ezért rákérdez, hogy ha az asztal és a láb egymás után következik, nem kellene-e őket egybeírni. Igaz, fordított esetben nem teszi föl ezt a kérdést – elfogadja a nem létező lábasztal szót, abban a hiszemben, hogy a szerző nem véletlenül írta le.

Néha a szoftver összetett szónak vél, ezért helyesnek fogad el olyan tévesztéseket, mint a tartáj – amely elvben akár lehetne kopaszvidék is –, de a színtű vagy a szeméji csak a korábbi változatokat csapta be. Zavarba jön akkor is, ha a nem odaillő szó is értelmes, mint például a mellett névutó helyére férkőző, a gép által ragozott főnévnek vélhető mellet vagy az egyelőre helyett az egyenlőre (de mivel ez gyakori hiba, itt már rákérdez a szerző szándékára).

Ennél többet tud a mondatellenőrzés. Ha például a mosó nő kapcsolattal találkozik a gép, körülnéz, nem talál-e valahol a mondatban tárgyat vagy más bővítményt. Ha ruhát mosó nőről van szó, nem jelez hibát, különben egybeírást javasol. De a tanácsainak jelentős része csak sejtés. Ha több igét talál egy mondatban, fölveti, hogy nem hiányzik-e közöttük valahol egy vessző, de hogy hol lenne a feltételezett tagmondatok határa, arra már nem mindig jön rá.

A Microsoft szövegszerkesztőjében egyébként nem is minden nyelvi ügyben a magyar szoftver az illetékes, az automatikus javítás az amerikaiak magyar szakértőinek munkája. Ez az, ami például a boxot következetesen bokszra javítja akkor is, ha a szerző nem az ökölvívásra gondolt. De ez működteti azt az automatizmust is, amellyel pont után mindenképp nagybetűs mondatot kezd a gép. Kevés felhasználó ismeri a kikapcsolásának vagy módosításának lehetőségét. Prószéky e szoftver buzgalmának tulajdonítja, hogy idehaza lopakodva terjed a hónapnevek nagybetűs kezdése, mert sokan hiszik azt, hogy ha az évszám után a gép így javítja, akkor így helyes.

A nyelvi ellenőrzőkről a szoftverfejlesztők hangsúlyozták, hogy legföljebb figyelmeztetésre alkalmasak – azt már a szöveg írójának vagy gondozójának kell eldöntenie, mit vesz komolyan az ajánlatokból. Németh László még azt is fölvetette, hogy érdemes lenne többfajta szintű nyelvi ellenőrzőt ajánlani: alaposabbat például a kiadóknak, egyszerűbbet azoknak, akik csak a legbántóbb hibáktól szeretnék megkímélni magukat. Prószéky szavaival: igényes munkához korrektort kell fogadni. Minden ilyen szoftver hátulütője ugyanis, hogy ha túl sok – vélt vagy valódi – hibát jelez, akkor a felhasználó ideges lesz és kikapcsolja.

A helyesírás-ellenőrzők megbízhatósága jórészt azon múlik, elég sok szót ismernek-e. Ezért az is számít, hogy a hírekbe bekerülő új kifejezések – mint például a vörösiszap – mekkora késéssel jutnak a szótárba. A legviccesebb bakikat a tulajdonnevek és az idegen szavak okozzák. Gép legyen a talpán, amelyik elég nagy biztonsággal választani tud Obama és Osama között. Az pedig eleve vert helyzetbe hozta a szoftvert, amíg a kettő közül csak a hamarabb hírértéket szerző Osamáról tudott.

Az új szavakat és neveket akár úgy is gyarapítani lehetne, hogy a szoftver folyamatosan tanul a felhasználók által elfogadott és elvetett javításokból. Ez a lehetőség az említett két magyar programban most nincs meg, a szavak listáját a tapasztalatok alapján a fejlesztők gyarapítják. A felhasználók által beírt kifejezéseket folyamatosan figyelve működik viszont az a javító módszer, amelyet a Google keresőgépe használ. Ez már magyarul is egészen jól eltalálja az emberek szándékát, igaz, a cég online szövegszerkesztőjének helyesírás-ellenőrzőjében ez a tudás még nem használható.

Lehet, hogy nemcsak a magyar, hanem a külföldi nyelvi ellenőrzőknek is javára válhat az a kutatás, amely január óta folyik a Magyar Tudományos Akadémia és a Pázmány Péter Katolikus Egyetem együttműködésével. A központilag betáplált szó- és szabálygyűjteményen alapuló ellenőrzés mellé olyat próbálnak kidolgozni, amely a mindenkori szöveg elemzésével, a szerzők szokásaival megismerkedve szűrné ki a hibákat – a gyakrabban előfordulókat helyesnek, a ritkább formákat helytelennek feltételezve. Ehhez persze hosszabb írásműre van szükség.

Galibák nagyobb és talán egyszerűbben kezelhető nyelveknél is előfordulnak. Az idevágó amerikai anekdoták közé tartozik, amikor egy jogi szakkifejezés, a sua sponte átváltozott tengeri szivaccsá (sea sponge) vagy a The New York Times egy sporttudósításában DeMeco Ryans focistából Demerol, azaz fájdalomcsillapító tabletta lett. Német szoftverek olyan, az ismeretlen jót ismert rosszra javító ajánlatokkal kerülnek az internetes fórumok szégyenfalára, mint a home-office helyett a homo-office, portfólió helyett a pornófilm, ügyfél-PC helyett az ügyfél-WC vagy az Orániai helyett Onániai-rend.

A „csúnya szavakkal” is foglalkozniuk kell a szoftverek fejlesztőinek. Mint Németh elmondta, ilyeneket is betáplálnak a szógyűjteménybe, de csak korlátozott szerepet szánnak nekik. Ha a szerző leírta, akkor a gép el is fogadja, az viszont már nem fordulhat elő, hogy javításul ajánl ilyet más szó helyett. A Microsoft irodacsomagjában a magyar csúnya szavak listája az amerikai fejlesztők kezében van, és a MorphoLogic hosszasan győzködte őket, amíg kompromisszumként a javítás helyett csak ez a figyelmeztetés került a programba: „durva, obszcén vagy bántó szó” – mint cikkünk címe esetében is.

BEDŐ IVÁN