Szétszedik a HUN-REN kutatóhálózatot: négy központ az ELTE-hez kerül
Még kérdés, hogy az intézetek által használt akadémiai ingatlanegyüttes is átkerül-e.
Amerikai kutatók fejlesztettek ki egy olyan „tolmács” fejhallgatót, amelyik nem jön zavarba attól, ha körülötte többen is beszélnek.
A probléma nem ritka: hiába van valakinél egy okostelefonos vagy akár fejhallgatóba épített fordítóprogram, ha olyan helyen tartózkodik, ahol sokan beszélnek, a program összezavarodik. Erre találtak megoldást a Washingtoni Egyetem kutatói, és már meglévő alkatrészekből elkészítették fejhallgató-alapú rendszerüket, amelyet Spatial Speech Translation (térbeli beszédfordítás) névre kereszteltek.
A fejhallgató-rendszer egyszerre több beszélő mondanivalóját is lefordítja, miközben megőrzi a beszélő hangjának irányát és minőségét. A beépített algoritmusok ehhez elkülönítik a beszélőket, követik őket mozgás közben, lefordítják, amit mondanak, és 2-4 másodperces késleltetéssel le is játsszák azt.
„Az algoritmusaink kicsit úgy működnek, mint a radarok. 360 fokban pásztázzák a teret, és folyamatosan meghatározzák és frissítik, hogy egy, kettő, hat vagy hét ember van-e ott” – magyarázza Tuochao Chen, vezető kutató.
Az eszköz egy pár Sony SH-100XM4 zajszűrős fejhallgatóból és egy pár Sonic Presence SP15C binaurális fejhallgatóból áll. A binaurális fejhallgatók nagyjából ugyanúgy rögzítik a hangot, mint ahogyan azokat az emberek hallják, azaz két különböző forrásból. Miután a mikrofonok felvették a hangot, a jel egy mobileszközbe kerül, amely valós időben futtat neurális hálózati modelleket.
Ebben az esetben a csapat egy Apple M2 chippel működő laptopot használt, amely képes neurális hálózatok futtatására. (A hangklónozással kapcsolatos adatvédelmi aggályok miatt kerülték a felhőalapú számítástechnika használatát.) A jelet ezután lefordítják és visszacsatolják a fejhallgatón keresztül, akár 1-2 másodperces késleltetéssel, bár a tesztelés során a felhasználók a 3-4 másodperces késleltetést részesítették előnyben, mivel a rendszer így kevesebb hibát vétett.
A mesterséges intelligencia alapú rendszer nemcsak a csoportos beszélgetésekben képes a különböző hangok kiszűrésére, hanem megőrzi a beszéd természetes ritmusát is, így a lefordított üzenet nagyon természetesen szól. Emellett alkalmazkodik, ahogy a viselő körbejár a szobában vagy elforgatja a fejét, rögzítve a különböző beszélgetési szálakat.
A rendszer 10 beltéri és kültéri tesztelés során megfelelően működött, sőt egy 29 résztvevős teszt során a felhasználók jobban kedvelték ezt a megoldást azokkal a modellekkel szemben, amelyek nem követték nyomon a hangszórókat a térben.
A Spatial Speech Translation jelenleg csak a köznyelvi beszéddel boldogul, a szakzsargont nem érti. A mostani tanulmány készítésekor a csapat spanyol, német és francia nyelven dolgozott, viszont a fordítási modelleken végzett korábbi munkák azt mutatták, hogy az ilyen modellek akár száz nyelv fordítására is betaníthatók.
„Ez egy nagy lépés a kultúrák közötti nyelvi akadályok lebontása felé” – mondta Chen. „Ha például Mexikóban sétálok az utcán, és nem beszélek spanyolul, még akkor is tudni fogom, hogy ki mit mondott” – tette még hozzá. A rendszert működtető kódot egyébként nyílt forráskódúvá tették, elérhető a GitHubon, így mások is kísérletezhetnek vele.
Ha máskor is tudni szeretne hasonló dolgokról, lájkolja a HVG Tech rovatának Facebook-oldalát.
Még kérdés, hogy az intézetek által használt akadémiai ingatlanegyüttes is átkerül-e.
Budapest megkapta az azonnali jogvédelmet is.
Ellenzéki össztűz zúdult a Parlamentben a miniszterelnökre.
Ahogy ígérték, az Európai Bizottság bemutatta az orosz gáz és olaj importjának megszüntetésére vonatkozó javaslatát.
Bói Loránd 2022 óta dolgozott a tárcánál.
A hatóságok vizsgálják, hol kaphatta el a súlyos betegséget.