Van olyan zajszűrő fejhallgató, amelyikkel mindig csak azt az embert hallja, akit szeretne

Fölöttébb frusztráló „élmény” lehet a hallókészülékkel élők számára, amikor olyan helyzetbe kerülnek, hogy többen beszélgetnek egymás hangját elnyomva. Ilyenkor nehéz kiszűrni a zajból a kiválasztott beszélgetőpartner szavait. A mesterséges intelligencia viszont ebben az esetben is segíthet.

  • HVG

Koktélparti hatásnak nevezik a hallókészülékek azon sajátosságát, hogy csak úgy tudják felerősíteni egy személy hangját, hogy a szobában tartózkodó többi ember hangját is felerősítik. A Washingtoni Egyetem kutatói egy ideje már foglalkoznak ezzel a problémával, vagyis azzal a kihívással, hogy a beszélgetőpartnerek hangját el kell különíteni a lármától. Készítettek is egy olyan fejhallgatót, amelyik egy úgynevezett hangbuborékot hoz létre, és izolálja annak a partnernek a hangját, akire a fejhallgató viselője ránéz. Ez a hangbuborék elnyomja a néhány méternél távolabbi hangokat is.

Azonban ez nem volt százszázalékos megoldás, és nem csupán azért, mert rá kellett nézni a beszélőre, hanem azért is, mert nem volt mód azon más hangok elnyomására, amelyek a buborékba kerültek. Mostani innovációjuk viszont ezt a problémát is megoldja. Egy olyan, az emberi hallást utánzó, térhatású, 3D-s hangélményt létrehozó binaurális mikrofont készítettek, amelyhez két mesterséges intelligencia tartozik.

https://hvg.hu/tudomany/20240824_mesterseges-intelligencia-fejhallgato-tomeg-egy-beszelo-celbeszed-hallas

A „proaktív hallássegédnek” elnevezett prototípus rendszer akkor aktiválódik, amikor a fejhallgatót viselő személy beszélni kezd. Ezt követően az egyik mesterséges intelligencia alapú modell elkezdi nyomon követni a beszélgetés résztvevőit egy „ki mikor” elemzéssel, és a beszélgetések közötti átfedések alacsony szintjét keresi. Ezután továbbítja az eredményt a második AI-modellnek, amely elkülöníti a résztvevőket, és a megtisztított hangot játssza le a viselő számára.

A rendszer elég gyors ahhoz, hogy elkerülje a felhasználó számára zavaró hangkésést, és jelenleg egy-négy beszélgetőpartnerrel is képes zsonglőrködni a viselő hangja mellett. „Minden, amit korábban csináltunk, megköveteli a felhasználótól, hogy manuálisan válasszon ki egy adott beszélőt vagy egy távolságot, amelyen belül hallani szeretne, ami nem túl jó a felhasználói élmény szempontjából. Amit bemutattunk, az egy proaktív technológia – valami, ami nem invazív módon és automatikusan következtet az emberi szándékra” – mondta Guilin Hu, a tanulmány vezető szerzője.

A következőkben még sok munka vár rájuk a felhasználói élmény finomítása érdekében. Minél dinamikusabb egy beszélgetés, annál valószínűbb, hogy a rendszer nehezebben fog működni, mivel a résztvevők olykor egyszerre beszélnek, vagy hosszabb monológokat folytatnak. A beszélgetésbe belépő és kilépő résztvevők további akadályt jelentenek, bár még a kutatókat is meglepte, hogy a jelenlegi prototípus milyen jól teljesített ezekben a bonyolultabb forgatókönyvekben. A modelleket egyelőre angol, mandarin és japán párbeszédeken tesztelték, és a kutatók szerint más nyelvek ritmusa további finomhangolást igényelhet.

A kutatási eredményeket nemrégiben be is mutatták egy, a természetes nyelvi feldolgozás empirikus módszereivel foglalkozó konferencián Kínában. Bár a technológiát jelenleg egy fülre helyezhető fejhallgatóban demonstrálják, a tudósok remélik, hogy kisebb eszközökbe is beépíthetik. A technológia így egy napon segíthet a hallókészülékek, fülhallgatók és okosszemüvegek felhasználóinak abban, hogy ne kelljen manuálisan irányítaniuk a mesterséges intelligencia „figyelmét” egy szűrt hangzásvilághoz.

(Nyitóképünkön a proaktív hallássegítő fejhallgató-prototípus. Forrás: EMNLP (Empirical Methods in Natural Language Processing) konferencia)

Hozzászólások