szerző:
ecoline.hu
Tetszett a cikk?
Értékelje a cikket:
Köszönjük!

A digitális tartalmak feldolgozásához szükséges nyelv- és...

A digitális tartalmak feldolgozásához szükséges nyelv- és beszédtechnológiai alkalmazások fejlesztése legalább olyan lényeges részévé kell, hogy váljon a Nemzeti Digitális Közműnek, mint a fizikai összeköttetést biztosító eszközök – hangsúlyozta az Ecoline.hu megkeresésére Váradi Tamás, a Nyelv és Beszédtechnológiai Platform elnöke kapcsolódva a Nemzeti Digitális Közmű hálózat fejlesztéséről a héten tartott konferencián elhangzottakhoz. Az a tény ugyanis, hogy az internet mind szélesebb kör számára elérhető, önmagában kevés – tette hozzá. 

Kommunikáció emberi nyelven

A szolgáltatónak és a felhasználónak egyaránt az az érdeke, hogy a világhálón megtalálható tartalmakat hatékonyan fel is tudja használni. Ehhez pedig az szükséges, hogy a „gépekkel emberi nyelven” lehessen kommunikálni.

Váradi Tamás

Minden kommunikáció alapja a természetes emberi nyelv – magyarázta Váradi Tamás. Ahhoz, hogy a rendelkezésre álló, az interneten elérhető tartalomból egyszerűen kinyerjük a hasznos tudást, le kell küzdeni a „nyelvi korlátokat”: a gépek tudását arra a szintre kell emelni, hogy erre alkalmas legyen. Ehhez biztosítja a szükséges eszközöket a nyelv- és beszédtechnológiai iparág.

A célkitűzés igen ambíciózus: a gépek minél jobban értsék, amit mondunk, értelmezzék az üzenetet, kinyerjék a beszédből vagy a szövegből a lényeget, lefordítsák másik nyelvre azt, és értelmesen beszéljenek hozzánk. A megvalósítás azonban közel sem lehetetlen.

Adatbányászat, fordító programok, beszélő gépek

Már ma is vannak működő, jól használható alkalmazások. Az adatbányászat (automatikus eljárások segítségével tartalmak kinyerése a szövegekből), a fordító programok használata egyre elterjedtebb. Nem ismeretlen talán a szemantikus web kifejezés sem, amelynek révén a szövegeket tartalmi viszonyaik alapján lehet rendezni. S realitássá vált a keresés a multimédiás alkotásokban (hang és filmanyagoknál) is. Sőt, a gyakorlatban is használnak már a hangot írott szöveggé, írásos dokumentumot hanganyaggá alakító eszközöket.

De vajon megéri-e ezeket az alkalmazásokat egy olyan kis nyelvre fejleszteni mint például a magyar? A kérdésre válaszolva Váradi Tamás elmondta: technológiai fejlesztésekről beszélünk, nem nyelvspecifikus rendszerekről. Azok az alkalmazások, amelyek egy ilyen összetett nyelvre működnek, a világon szinte mindenütt sikeresen alkalmazhatók. 

Nem véletlen, hogy a viszonylag egyszerű angol nyelvre írt programok nem, illetve igen lassan hódítottak maguknak piacot Magyarországon. A technológiai keretek szűknek bizonyultak – emelte ki a szakember. Váradi Tamás e megjegyzéshez azonban rögtön hozzátette azt is: lényegi szempont, hogy a technológiák által biztosított eszközöket a saját környezetükben kezeljük, arra használjuk, amire alkalmasak.

Egy fordítóprogramtól azt elvárni például, amire egy szakfordító képes, irreális. A gépi feldolgozás a gyors és tömeges adatfeldolgozásra alkalmas, az így nyerhető nyersanyagot is ennek fényében kell értékelni. Az eredményt pedig azzal a megtakarítással kell összevetni, amely az ilyen jellegű „előmunkálatok” révén elérhető.

Nyelv és Beszédtechnológiai Platform 

A formálódó új iparág magyarországi fejlődésének lökést adhat az MTA Nyelvtudományi Intézetének vezetésével megalakult Nyelv és Beszédtechnológiai Platform. A szerveződés kutatásfejlesztéssel foglalkozó műhelyek stratégiai szövetségeként jött létre 2008 nyarán. A tagok között az ipari partnerek (AITIA International Zrt., Alkalmazott Logikai laboratórium Kutató-fejlesztő Szövetkezet, Kilgray Fordítástechnológiai Kft., Morphologic Kft.) valamint az egyetemi műhelyek (BME Média Oktatási és Kutató Központ, BME Távközlési és Médiainformatikai Tanszék, SZTE TIK Informatikai Tanszékcsoport, PPKE Információs Technológiai kara) egyaránt megtalálhatók.

A platform - amely a Nemzeti Kutatási és Technológiai Hivatal nemzeti technológiai pályázatán kétéves támogatást nyert el – feladata, hogy meghatározza az iparág távlatos kutatásfejlesztési céljait, s az erre épülő megvalósíthatósági stratégiát. A célok kijelölésére vonatkozó tanulmány Váradi Tamás tájékoztatása szerint 2009 nyaráig készül el, amelyet ősszel az érintettek (döntéshozók, szakmai partnerek, befektetők és a nagyközönség) konferencián ismerhetnek és vitathatnak meg. A megvalósíthatósági stratégiát 2010 nyaráig fogják véglegesíteni.

Nemzeti Digitális Közmű

A tervezés alatt álló Nemzeti Digitális Közmű hálózat az összes magyarországi települést a világhálóhoz kapcsolná. Egy hétfői budapesti konferencián elhangzottak szerint a másodpercenként 6-10 megabit sávszélességet kínáló, de bővíthető rendszer a nemzeti-össztársadalmi digitális közmű modernizációs eszköze lehetne. 

A megvalósításról az MTI tudósítása szerint Baja Ferenc, a Miniszterelnöki Hivatal államtitkára a konferenciát követő sajtótájékoztatón úgy nyilatkozott: a szakmai és politikai egyeztetések után létrejövő projektben "nem az építés lesz a hosszú idő", hanem a peremfeltételek kialakítása és a szükséges engedélyek beszerzése. Ezt figyelembe véve a reális időhorizont a technológia telepítéséhez szükséges egy-másfél év és a maximális öt esztendő közé becsülhető. A tisztségviselő hangsúlyozta: a cél az, hogy a lakosság minél nagyobb része rendelkezzen szélessávú internet-hozzáféréssel.

A hálózat települési szintig történő kiépítésének "több tízmilliárdos, százmilliárdos" nagyságrendű költségeinek minél nagyobb hányadát fedeznék európai uniós forrásokból, a rendszer modellje pedig egyfelől a kormányzati gerinchálózat, másrészt a Magyar Tudományos Akadémiát, a kutatóhelyeket és az egyes egyetemeket összekötő háló lenne.

Már működő beszédtechnológiai alkalmazások

Webforditas.hu (MorphoLogic): fordítást, szótárazást, többnyelvű keresést, helyesírás-ellenőrzést és mondatelemzést segítő alkalmazás. 

Hangos kereső (Alkalmazott Logikai Laboratórium Kutató-fejlesztő Szövetkezet): A technológia lehetővé teszi mind a beszédfelismerési, mind pedig a hangzó beszédet tartalmazó ún. beszédtárakban történő keresést. Nyelvfüggetlen technológiai keretrendszer.

Gyógyszervonal (BME Távközlési és Médiainformatikai Tanszék, Országos Gyógyszerészeti Intézet) Éjjel, nappal hívható normál díjas vezetékes vonal (telefonszáma: 886-94-90). A rendszert az Országos Gyógyszerészeti Intézet üzemelteti.

Gépi beszédfelismerő rendszer (AITIA International Zrt. - BME TMIT): A magyar nyelvű média-archívumok kereshetőségét támogató folyamatos beszédfelismerő rendszer lehetővé teszi az adatbázisokban a tartalom alapú keresést. 

MemoQ integrált fordítástámogató környezet (Kilgray Kft.) Alkalmazásával a professzionális fordítók egységnyi fordítást kevesebb idő alatt tudnak elvégezni, mint ilyen környezet nélkül. 

Tulajdonnév-azonosító rendszer (BME Szociológia és Kommunikáció Tanszék Média Oktatási és Kutató Központ) Automatikusan megtalálja és személynév/helynév/szervezetnév kategóriákba sorolja egy szöveg tulajdonneveit. 

Információkinyerés (Szegedi Tudományegyetem, Informatikai Tanszékcsoport): Az alkalmazással a tulajdonnevek azonosítása révén automatikusan gyűjthetünk információt egyes cégekről/személyekről a Webről.

HVG

HVG-előfizetés digitálisan is!

Rendelje meg a HVG hetilapot papíron vagy digitálisan, és olvasson minket bárhol, bármikor!