A számítógépes fordításnak, de az eddig fogasnak tetsző nyelvészeti kérdések megválaszolásának is szárnyakat adhat, hogy az interneten minden eddiginél nagyobb szövegtárakhoz férnek hozzá a nyelvészek.

Ha mondhatjuk, hogy "földek" vagy "hölgyek", miért ne mondhatnánk, hogy "földen" vagy "hölgyen"? Ha létezik feltűnési viszketegség, miért nincs szereplési viszketegség is? A válaszok a korpuszokban rejlenek - így hívják a nyelvészek azokat a hatalmas és újabban már számítógépes szövegtárakat, amelyeknek segítségével megállapítják, hogyan beszélnek és írnak az emberek, mi számít elfogadottnak, vagy éppen mi kopott ki a nyelvből.

Mások beszélgetéseinek kihallgatása udvariatlanság lévén, a hagyományos korpuszokat regényrészletekből, hivatalos iratokból és saját gyűjtésükből állították össze a nyelvtudorok. Ezt a mintavételt az 1970-1980-as években kiegészítette a köznyelvet regisztráló adatgyűjtés - mondja Szigetvári Péter, az Eötvös Loránd Tudományegyetem angol nyelvészeti tanszékének adjunktusa, bár megjegyzi, Magyarországon az írott nyelvet sok tudós továbbra is becsesebbnek tartja, mint a beszéltet. Bár a korpuszok egyre változatosabbak - az 1988-ban készült, egyebek közt süteményrecepteket is tartalmazó British National Corpus például már 100 millió szót tartalmaz -, ritkább szavakra vagy hétköznapi szavak ritka jelentéseire még így is alig találni bennük bizonyítékokat, állítják a hozzáértők.

A megoldás: a szövegek még nagyobb tárházának összeállításához már az internetet kell megcsapolni. Ez immár Magyarországon is megtörtént: a Budapesti Műszaki és Gazdaságtudományi Egyetem Szociológia Tanszéke Média Oktató és Kutató Központjában (MOKK) 2003 telén készült el az első magyar webkorpusz, amely nem kevesebb mint 1486 millió szót tartalmaz, ez a szövegmennyiség több mint 37 ezer átlagos terjedelmű regénynek felel meg. Alapjául az egyik nagy magyar keresőgép, a Vizsla által vizslatott 18 millió magyar internetcím tartalma szolgált. Váradi Tamás, a Magyar Tudományos Akadémia (MTA) Nyelvtudományi Intézete (NYTI) korpusznyelvészeti osztályának a vezetője viszont nemcsak a méretet, hanem a feldolgozottságot is fontosnak tartja. Ő és munkatársai 1997-ben hozták létre a Magyar Nemzeti Szövegtárat, amely egyelőre "csak" 154 millió szót tartalmaz, ám oly alapos - persze szintén számítógépes - nyelvi elemzéssel, amely mutatja a szófajokat és a ragozást is. Ezt a korpuszt most is bővítik, hogy tükrözze az egész Kárpát-medence magyar nyelvhasználatát.

Bár a számítógépes világháló, a web nyelvészeti felhasználása az 1990-es évek vége óta tart, akadnak olyanok, akik az internetet túl "zajosnak" tartják ahhoz, hogy a nyelvhasználatról hű és megbízható információkat lehessen kinyerni belőle. "Elírások, félmondatok, reklámok, nem összefüggő szövegek zavarják az elemzést" - magyarázza Oravecz Csaba, az MTA NYTI korpusznyelvészeti osztályának kutatója. A magyar weboldalakon gyakran fordulnak elő angol vagy német szavak, ez szintén megnehezíti a nyelv elemzését - teszi hozzá Szakadát István egyetemi docens, a MOKK vezető kutatója. Ráadásul "a hálón néha alattomos szövegek lapulnak" - figyelmezteti kollégáit Mark Liberman amerikai nyelvész is az erre szakosodott internetes napló és hirdetőtábla, a Language Log nevű nyelvészeti blog oldalain. A furfangos weboldal-tulajdonosok ugyanis még számítógépes nyelvészeket is alkalmaznak, hogy nyelvtanilag helyes, ám értelmetlen mondatokkal csapják be a számítógépes keresőgépeket (ilyenek például a Google, a Yahoo vagy a Vizsla), és így irányítsák őket pornográf vagy szerencsejáték-oldalakra. "Amikor a folyómeder a játékgép fölött hibernálódik, a haladó jackpot iránya repülős bónuszpontokat ér" - olvasható egy példa az Economist e tárgyról írott cikkében.

Alaposan meg kellett tehát rostálni a MOKK webkorpuszát. A válogatás eszközei közé tartozott, hogy saját fejlesztésű helyesírás-ellenőrző programjuk, a Hunspell segítségével kigyomlálták a nem magyar, az ékezet nélküli és az egyéb zavaró szavakat - avatta be a munka részleteibe a HVG-t Halácsy Péter projektvezető. Így jutottak el a bevezetőben említett kérdés megválaszolásához is: tudományos bizonyítást nyert, hogy a nyelvérzék nem csal, a korpuszban ugyanis nem lehetett a nyomára bukkanni, hogy a magyarul írók és beszélők használnák akár a "földen, könyven, hölgyen, völgyen" alakokat, akár a "szereplési viszketegség" kifejezést.

A korpusz - és különösen webváltozata - nem pusztán efféle nyelvészeti kérdések megválaszolására alkalmas. A számítógépes nyelvészet egyik ága, a nyelvtechnológia - amelynek a számítógépes helyesírás-ellenőrzők, szótárak, keresőprogramok is köszönhetőek - a korpuszokra épít akkor is, amikor már-már elérhető közelségbe hozza a számítógépes beszédfelismerést, a szövegek automatikus osztályozását, kivonatolását. Sőt a MOKK kutatói azzal alapozták meg most készülő gépi angol-magyar nyersfordító programjukat, hogy angol-magyar párhuzamos korpuszt készítettek az internetről ingyenesen letölthető dokumentumokból, egyebek közt az Európai Unió óriási jogi adatbázisából, de akár regényekből, filmfeliratokból is - mondja Halácsy. A fordításhoz ez azért nagy segítség, mert a szótáraktól eltérően a korpusz nem pusztán szavak, hanem értelmes szövegek gyűjteménye. Ha például a számítógépnek a "nap" szót kell lefordítania, akkor valószínűleg azt találja, hogy az angol "sun" környékén a "bolygó" szó fordul elő a legtöbbször, a "day" közelében meg a "hét". Ha tehát a magyar "nap" közelében a bolygó szóval találkozik, akkor "sun"-nak fogja fordítani - magyarázza Szakadát István a fordítógép statisztikai logikáját. Ha viszont nem talál ilyen támpontot, akkor - biztos, ami biztos alapon - a gyakrabban előforduló szót választja. Minél több szöveget tartalmaz a korpusz, annál nagyobb a valószínűsége annak, hogy nem találomra fordít a gép.

BARTA JUDIT

Körözött Audival, kicserélt rendszámmal és hamis forgalmival akart átjutni Röszkén

Körözött Audival, kicserélt rendszámmal és hamis forgalmival akart átjutni Röszkén

Szakadékba zuhant egy ember Salgótarjánban

Szakadékba zuhant egy ember Salgótarjánban

Vasárnap ön is ingyen beutazhatja az országot

Vasárnap ön is ingyen beutazhatja az országot

Háztetőkön bóklászó fekete párduc rémisztgette egy francia város lakóit

Háztetőkön bóklászó fekete párduc rémisztgette egy francia város lakóit

Százezrek tüntettek a klímavédelemért Ausztráliában

Százezrek tüntettek a klímavédelemért Ausztráliában

Baranyi Krisztina: "Nem azért lettem politikus, hogy szerepelhessek"

Baranyi Krisztina: "Nem azért lettem politikus, hogy szerepelhessek"