szerző:
HVG
Tetszett a cikk?

Amerikai kutatók fejlesztettek ki egy olyan „tolmács” fejhallgatót, amelyik nem jön zavarba attól, ha körülötte többen is beszélnek.

A probléma nem ritka: hiába van valakinél egy okostelefonos vagy akár fejhallgatóba épített fordítóprogram, ha olyan helyen tartózkodik, ahol sokan beszélnek, a program összezavarodik. Erre találtak megoldást a Washingtoni Egyetem kutatói, és már meglévő alkatrészekből elkészítették fejhallgató-alapú rendszerüket, amelyet Spatial Speech Translation (térbeli beszédfordítás) névre kereszteltek.

A fejhallgató-rendszer egyszerre több beszélő mondanivalóját is lefordítja, miközben megőrzi a beszélő hangjának irányát és minőségét. A beépített algoritmusok ehhez elkülönítik a beszélőket, követik őket mozgás közben, lefordítják, amit mondanak, és 2-4 másodperces késleltetéssel le is játsszák azt.

„Az algoritmusaink kicsit úgy működnek, mint a radarok. 360 fokban pásztázzák a teret, és folyamatosan meghatározzák és frissítik, hogy egy, kettő, hat vagy hét ember van-e ott” – magyarázza Tuochao Chen, vezető kutató.

Az eszköz egy pár Sony SH-100XM4 zajszűrős fejhallgatóból és egy pár Sonic Presence SP15C binaurális fejhallgatóból áll. A binaurális fejhallgatók nagyjából ugyanúgy rögzítik a hangot, mint ahogyan azokat az emberek hallják, azaz két különböző forrásból. Miután a mikrofonok felvették a hangot, a jel egy mobileszközbe kerül, amely valós időben futtat neurális hálózati modelleket.

Ebben az esetben a csapat egy Apple M2 chippel működő laptopot használt, amely képes neurális hálózatok futtatására. (A hangklónozással kapcsolatos adatvédelmi aggályok miatt kerülték a felhőalapú számítástechnika használatát.) A jelet ezután lefordítják és visszacsatolják a fejhallgatón keresztül, akár 1-2 másodperces késleltetéssel, bár a tesztelés során a felhasználók a 3-4 másodperces késleltetést részesítették előnyben, mivel a rendszer így kevesebb hibát vétett.

A többnyelvű fordító fejhallgató prototípusa
Shyam Gollakota

A mesterséges intelligencia alapú rendszer nemcsak a csoportos beszélgetésekben képes a különböző hangok kiszűrésére, hanem megőrzi a beszéd természetes ritmusát is, így a lefordított üzenet nagyon természetesen szól. Emellett alkalmazkodik, ahogy a viselő körbejár a szobában vagy elforgatja a fejét, rögzítve a különböző beszélgetési szálakat.

A rendszer 10 beltéri és kültéri tesztelés során megfelelően működött, sőt egy 29 résztvevős teszt során a felhasználók jobban kedvelték ezt a megoldást azokkal a modellekkel szemben, amelyek nem követték nyomon a hangszórókat a térben.

A Spatial Speech Translation jelenleg csak a köznyelvi beszéddel boldogul, a szakzsargont nem érti. A mostani tanulmány készítésekor a csapat spanyol, német és francia nyelven dolgozott, viszont a fordítási modelleken végzett korábbi munkák azt mutatták, hogy az ilyen modellek akár száz nyelv fordítására is betaníthatók.

„Ez egy nagy lépés a kultúrák közötti nyelvi akadályok lebontása felé” – mondta Chen. „Ha például Mexikóban sétálok az utcán, és nem beszélek spanyolul, még akkor is tudni fogom, hogy ki mit mondott” – tette még hozzá. A rendszert működtető kódot egyébként nyílt forráskódúvá tették, elérhető a GitHubon, így mások is kísérletezhetnek vele.

Spatial speech translation

Spatial speech translation is a novel capability for hearables that translate speakers in the wearer’s environment in real-time, while maintaining the direction and unique voice characteristics of each speaker in the output. This work marks the first step towards integrating spatial perception into speech translation.

Ha máskor is tudni szeretne hasonló dolgokról, lájkolja a HVG Tech rovatának Facebook-oldalát.

HVG

HVG-előfizetés digitálisan is!

Rendelje meg a HVG hetilapot papíron vagy digitálisan, és olvasson minket bárhol, bármikor!