Van egy fejhallgató, amelyik egyszerre fordítja több idegen nyelven beszélő ember mondandóját

Amerikai kutatók fejlesztettek ki egy olyan „tolmács” fejhallgatót, amelyik nem jön zavarba attól, ha körülötte többen is beszélnek.

A probléma nem ritka: hiába van valakinél egy okostelefonos vagy akár fejhallgatóba épített fordítóprogram, ha olyan helyen tartózkodik, ahol sokan beszélnek, a program összezavarodik. Erre találtak megoldást a Washingtoni Egyetem kutatói, és már meglévő alkatrészekből elkészítették fejhallgató-alapú rendszerüket, amelyet Spatial Speech Translation (térbeli beszédfordítás) névre kereszteltek.

A fejhallgató-rendszer egyszerre több beszélő mondanivalóját is lefordítja, miközben megőrzi a beszélő hangjának irányát és minőségét. A beépített algoritmusok ehhez elkülönítik a beszélőket, követik őket mozgás közben, lefordítják, amit mondanak, és 2-4 másodperces késleltetéssel le is játsszák azt.

„Az algoritmusaink kicsit úgy működnek, mint a radarok. 360 fokban pásztázzák a teret, és folyamatosan meghatározzák és frissítik, hogy egy, kettő, hat vagy hét ember van-e ott” – magyarázza Tuochao Chen, vezető kutató.

Az eszköz egy pár Sony SH-100XM4 zajszűrős fejhallgatóból és egy pár Sonic Presence SP15C binaurális fejhallgatóból áll. A binaurális fejhallgatók nagyjából ugyanúgy rögzítik a hangot, mint ahogyan azokat az emberek hallják, azaz két különböző forrásból. Miután a mikrofonok felvették a hangot, a jel egy mobileszközbe kerül, amely valós időben futtat neurális hálózati modelleket.

Ebben az esetben a csapat egy Apple M2 chippel működő laptopot használt, amely képes neurális hálózatok futtatására. (A hangklónozással kapcsolatos adatvédelmi aggályok miatt kerülték a felhőalapú számítástechnika használatát.) A jelet ezután lefordítják és visszacsatolják a fejhallgatón keresztül, akár 1-2 másodperces késleltetéssel, bár a tesztelés során a felhasználók a 3-4 másodperces késleltetést részesítették előnyben, mivel a rendszer így kevesebb hibát vétett.

A többnyelvű fordító fejhallgató prototípusa

Shyam Gollakota

A mesterséges intelligencia alapú rendszer nemcsak a csoportos beszélgetésekben képes a különböző hangok kiszűrésére, hanem megőrzi a beszéd természetes ritmusát is, így a lefordított üzenet nagyon természetesen szól. Emellett alkalmazkodik, ahogy a viselő körbejár a szobában vagy elforgatja a fejét, rögzítve a különböző beszélgetési szálakat.

A rendszer 10 beltéri és kültéri tesztelés során megfelelően működött, sőt egy 29 résztvevős teszt során a felhasználók jobban kedvelték ezt a megoldást azokkal a modellekkel szemben, amelyek nem követték nyomon a hangszórókat a térben.

A Spatial Speech Translation jelenleg csak a köznyelvi beszéddel boldogul, a szakzsargont nem érti. A mostani tanulmány készítésekor a csapat spanyol, német és francia nyelven dolgozott, viszont a fordítási modelleken végzett korábbi munkák azt mutatták, hogy az ilyen modellek akár száz nyelv fordítására is betaníthatók.

„Ez egy nagy lépés a kultúrák közötti nyelvi akadályok lebontása felé” – mondta Chen. „Ha például Mexikóban sétálok az utcán, és nem beszélek spanyolul, még akkor is tudni fogom, hogy ki mit mondott” – tette még hozzá. A rendszert működtető kódot egyébként nyílt forráskódúvá tették, elérhető a GitHubon, így mások is kísérletezhetnek vele.

Spatial speech translation
Spatial speech translation is a novel capability for hearables that translate speakers in the wearer’s environment in real-time, while maintaining the direction and unique voice characteristics of each speaker in the output. This work marks the first step towards integrating spatial perception into speech translation.

Ha máskor is tudni szeretne hasonló dolgokról, lájkolja a HVG Tech rovatának Facebook-oldalát.

Hozzászólások

Van egy fejhallgató, amelyik egyszerre fordítja több idegen nyelven beszélő ember mondandóját

Spatial speech translation

Önkormányzati kenőpénzbotrány: Pécsen milliárdos Hungast-szerződéseket vizsgálnak a nyomozók

Felmondott Papp Dániel, az MTVA vezérigazgatója

Újabb diplomata-útlevelesek neve derült ki, NER-es cégek vezetői is kaptak

Tuzson Bence az utolsó munkanapján még bekavart az Alkotmánybíróságnál a homofób törvény elleni EU-bírósági ítélet ügyében

Nem várt helyen is találtak azbesztszennyezést, és az önkormányzatok egymaguk nem tudnak beavatkozni

Azbesztszennyezés: itt az új lista, ezekre a helyszínekre érkeztek szállítmányok az ötödik ausztriai bányából

Guardian-elemzés: Idegesek a magyar oligarchák, mert az állam megadóztathatja a vagyonukat

Szabó István: Jó messzire kell kerülni a hatalomtól, erről szólnak a filmjeim

Újdörögdi gránátbaleset: az ügyészség lezárta a nyomozást, nem neveztek meg felelőst

Fásy Ádám e-mail címéről érkezhettek utasítások a Fullánk nevű győri lejáratóújsághoz

A Fidesz kampánystábja már 2025 tavaszán szólt Rogánnak, hogy nem találnak fogást Magyar Péteren

Direkt a választás után tartotta esküvőjét a meleg főkonzul, aki korábban a Fidesz jelöltje volt

Szoboszlaiék nem vicceltek: felszólítottak egy hamburgerezőt, töröljék a posztjukat a focista ruhájáról

Marabu Féknyúz: Népszava

Órákkal a konstancai robbanás után az ukránok elismerték, hogy elvesztették az egyik víz alatti drónjukat

Szombattól nem adnak ki vendégmunkás-tartózkodási engedélyeket Magyarországon

„Már kellemetlen volt, amikor Pogány Judit fogta meg a kezemet, hogy felsegítsen” – Csuja Imre otthagyja a színpadot