Ahol a magyar nyelv nagynak számít: így zajlik a fordítóprogramok forradalma

Mennyivel lettek jobbak a fordítóprogramok a mesterséges intelligencia ugrásszerű fejlődése nyomán? A változások valóban forradalmiak, de csak néhány nagy nyelv profitál belőlük, sok ezer kicsit az eltűnés fenyeget. A magyar ebből a szempontból a nagyok közé tartozik.

Ahol a magyar nyelv nagynak számít: így zajlik a fordítóprogramok forradalma

„A medve lejött a hegyről. Ott volt egy út, és átment rajta.” Vagy: „A medve lejött a hegyről. Ott volt egy úthenger, és átment rajta.” Az efféle, egymástól alig különböző mondatokkal a régebbi gépi tanulású nyelvi modellekre épülő fordítóprogramok nemigen tudtak mit kezdeni (pontosan ki ment át kin vagy min?). A legújabb verzióknak viszont már nem okoz gondot, hogy érzékeljék, miként „öröklődik” az előző mondatból az egyes szám harmadik személy, és kire vonatkozik a névmás – hívta fel a figyelmet néhány hete a Magyar Tudományos Akadémia közgyűlésén tartott előadásában Prószéky Gábor matematikus-nyelvész, a Nyelvtudományi Kutatóközpont főigazgatója.

A nagy nyelvi modellekre (angol terminológiával: Large Language Model, LLM) épülő fordítóprogramoknak nem csak ez a képességük újdonság. Szakértők szerint az utóbbi 2–3 évben valóban forradalmi változások zajlottak le a gépi nyelvértés és fordítás területén. A különbség különösen a korábbi, nagyjából 70 éve tartó próbálkozásokkal összevetve válik nyilvánvalóvá.

Eleinte, évtizedeken át, a nyelvészek megpróbálták a számítógép számára értelmezhető formában betáplálni a nyelvtani szabályokat, de kiderült, hogy ez bizonyos szint felett áttekinthetetlenné válik, ráadásul kevéssé életszerű eredményekre vezet. Különösen a többértelműséggel nem tudtak mit kezdeni a szabályalapú fordítógépek. Az 1990-es évektől kezdtek statisztikai nyelvészeti módszerekre áttérni, és adtak nagy mennyiségű, emberek által fordított szöveghalmazt a komputereknek, hogy azt használják fordításhoz, ami a gyakorisága alapján valószínűbb. Ezzel már könnyebb volt felismerni szókapcsolatokat vagy mondatrészeket, de a szövegkörnyezetet ez a rendszer sem tudta figyelembe venni, a nagyobb szövegadatbázisokból ellentmondásos eredmények jöttek ki, továbbá nem tudott mit kezdeni a nagyon ritka szószerkezetekkel és a nagyon hosszú mondatokkal – magyarázta Prószéky Gábor.

Ilyen egyszerűen lopták el egy nő több száz millió forintot érő budai telkét

Ilyen egyszerűen lopták el egy nő több száz millió forintot érő budai telkét

Nyolc nap leforgása alatt elajándékoztak, majd eladtak egy jelenleg 300-400 millió forintot érő telket Budapest XII. kerületében – mindezt úgy, hogy a tulajdonos erről semmit sem tudott. Azóta egy konténer is megjelent a területen, a csalás áldozata pedig nem tehetne semmit egy esetleges építkezés ellen sem, mert jogilag már nem az övé a telek. A HVG információi szerint egyre több a hasonló ügy.