szerző:
hvg.hu
Tetszett a cikk?

Az első pillanatban őrült ötletnek tűnhet, hogy az Apple látásra képtelen digitális asszisztense értelmezné a szájmozgásokat, azonban egy új szabadalom egészen máshonnan közelítené meg a problémát, kihasználná a mozgásérzékelést.

Ez év januárjának végén nyújtott be az Apple egy igencsak érdekes szabadalmat. Egy rendszert mutatott be annak meghatározására, hogy az érzékelt szájmozgási adatok megegyeznek-e egy szóval vagy egy kifejezéssel. A leírás kifejezetten említ olyan egyszerű hangutasításokat, mint a „Hey Siri” vagy a „következő dal”, és hogy miként javíthatók ezek a bemenetek a felhasználók szájrészeit elemző algoritmusnak köszönhetően.

Azt az Apple is elismeri, hogy nyilvánvaló problémák vannak a hangfelismerő rendszerekkel, például a Sirivel. A hangok torzulhatnak a háttérzaj miatt, és más érzékelők, amelyek folyamatosan figyelik az emberek hangját, sok energiát fogyasztanak. Ami érdekes: a szabadalmi leírásban szereplő, „szájról olvasó” eszköz nem használná a kamerát. A hangfelismerő szoftver a telefon egyik mozgásérzékelőjének adataira támaszkodna, a száj, a nyak vagy a fej mozgásainak érzékelésére, és meghatározná, hogy jelezhetik-e az emberi beszédet ezek a mozgások.

Az említett érzékelő lehetne egy csatlakoztatott gyorsulásmérő vagy giroszkóp, ami finom arcizmokat, rezgéseket vagy fejmozgásokat észlelhetne a dokumentum szerint. Ezeket a szenzorokat a mikrofonnál kevésbé zavarnák a nem kívánt hatások. Egyébként nem is kellene feltétlenül telefonra gondolni, írja az Apple Insider, ugyanis a szabadalom leírja, hogy az ilyen mozgásérzékelő technológiát hogyan lehet integrálni az AirPod-okba, sőt homályos utalást tesz az „okosszemüvegre” is.

USPTO

A szabadalmi bejelentés azt is részletezi, hogyan lehet összehasonlítani a szájmozgásokat a korábbi adatokkal, amikor a Siri vagy egy eszköz megpróbálja megtalálni a megfelelőt. A mozgás érzékelése és a korábbi rekordokkal való összehasonlítása egyértelműen működni látszik, amikor a „Hé, Siri” vagy más szokásos parancs hangzik el, azonban a kevésbé gyakori parancsoknál egylőre kétséges a működése. Azonban amíg a mozgásérzékelés elég gyors, annak észlelése, hogy a felhasználó „Sirit” mondott, az azt jelenti, hogy az eszköz képes időben bekapcsolni a mikrofonokat, hogy azután értelmezze a többi hangot.

Ha máskor is tudni szeretne hasonló dolgokról, lájkolja a HVG Tech rovatának Facebook-oldalát.

HVG

HVG-előfizetés digitálisan is!

Rendelje meg a HVG hetilapot papíron vagy digitálisan, és olvasson minket bárhol, bármikor!